클로드의 8% 가격으로 코딩한다고? [정원훈의 AI 트렌드]

허깅페이스 4월 3주차 AI 동향 분석

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 '코드가 깊어지고, 로봇이 생각하고, 브라우저가 똑똑해진' 한 주였습니다.

개발자의 든든한 동반자를 자처하는 오픈소스 코딩 에이전트 모델이 클로드 소넷의 8% 가격으로 두 배 빠른 속도를 내세우며 커뮤니티를 뜨겁게 달궜습니다. 텐센트가 로봇의 '뇌'가 될 엠보디드(Embodied) 기반 모델을 공개하면서, 가상 AI에서 물리 세계로 이동하는 흐름을 본격화했습니다. 중국 Z.ai가 내놓은 차세대 플래그십 모델은 에이전트 엔지니어링 분야에서 긴 호흡의 작업을 끝까지 해내는 지구력으로 주목받았습니다.

이번 주의 키워드는 세 가지입니다. '클로드 소넷의 8% 가격·두 배 속도로 코딩 에이전트를 돌리는 미니맥스(MiniMax) M2.7', '가상을 넘어 실제 로봇의 두뇌가 되는 텐센트(Tencent) HY-Embodied-0.5', '에이전트 엔지니어링의 새 기준을 제시한 Z.ai의 GLM-5.1'입니다. 이번 주도 퀴즈로 시작하겠습니다.

총 파라미터 2300억 개 중 100억 개만 활성화하는 희소(sparse) 전문가 혼합(MoE) 구조로 낮은 지연시간과 높은 처리량을 동시에 달성한 이 오픈소스 모델은 무엇일까요. 클로드 코드·커서·클라인 같은 주요 에이전트 개발 환경과 바로 호환되며, <think>...</think> 태그로 '생각의 흐름'을 그대로 보존하는 '인터리브드 추론(Interleaved Thinking)' 방식을 채택한 것이 특징입니다.

총 4B 파라미터 중 2.2B만 활성화되는 '믹스처 오브 트랜스포머(Mixture-of-Transformers)' 아키텍처로 일반 VLM의 한계를 넘어 로봇이 요구하는 세밀한 3D 공간 인식과 물리적 상호작용 능력을 확보한 모델은 무엇일까요. 22개 벤치마크 중 16개에서 동급 최강을 기록했고, 대형 32B 변형은 구글 제미나이 3.0 프로(Gemini 3.0 Pro)와 맞먹는 성능을 보여주며 비전-언어-행동(VLA) 파이프라인의 뇌로 설계된 텐센트의 엠보디드 기반 모델입니다.

정답은 'MiniMaxAI/MiniMax-M2.7'과 'tencent/HY-Embodied-0.5'입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.

AI 모델 톱3

1위: MiniMaxAI/MiniMax-M2.7 | Text Generation

"클로드 가격의 8%, 두 배의 속도… 중국발 오픈소스 에이전트의 '가성비' 역습"

중국 AI 스타트업 미니맥스(MiniMax)가 선보인 차세대 에이전트 코딩 전용 모델입니다. 총 2300억 개의 파라미터를 탑재했지만, 질문이 들어오면 그때그때 필요한 100억 개만 켜서 돌리는 '전문가 혼합(MoE, Mixture of Experts)' 구조를 채택했습니다. 쉽게 말해, 분야별 전문가 여러 명을 한 사무실에 모아두고 질문에 맞는 전문가만 호출하는 방식입니다. 덕분에 거대 모델의 지능은 유지하면서도, 추론 속도는 빠르고 비용은 낮게 유지됩니다.

진짜 포인트는 '가격 파괴'입니다. 미니맥스는 M2 버전부터 앤트로픽 클로드 4.5 소넷(Sonnet) 대비 약 8%의 API 가격으로, 그러면서도 두 배 가까운 추론 속도를 제공한다고 밝혔습니다. 한 달에 수십만 원의 API 비용을 내던 스타트업 개발자들이 반색하는 이유가 여기에 있습니다. M2.7 버전은 여기에 '인격적 일관성(character consistency)'과 '감성 지능(emotional intelligence)'까지 강화했습니다. 단순히 코드를 짜는 도구를 넘어, 긴 대화와 복잡한 워크플로우에서도 일관된 태도와 판단을 유지하는 '동료 개발자'에 가까워졌다는 평가입니다.

핵심 구조를 살펴보면, 모델 스스로 머릿속으로 생각하는 과정을 <think>...</think> 태그 안에 기록한 뒤 최종 답을 내놓는 '인터리브드 추론(Interleaved Thinking)' 방식을 씁니다. 중요한 것은 대화를 이어갈 때 이 '생각 흔적'을 반드시 그대로 보존해야 한다는 점입니다. 지우고 다음 턴에 보내면 모델 성능이 떨어진다는 것이 공식 안내입니다. '생각 후 말하기'가 훈련된 동시에, 생각의 기록도 남겨두는 철저히 에이전트 친화적인 설계입니다.

벤치마크 성적도 눈에 띕니다. 미니맥스에 따르면 M2.7은 오픈 가중치(open-weight) 모델 중 GDPval-AA 벤치마크 최고 점수인 ELO 1495를 기록했고, MM Claw 엔드투엔드 평가에서는 62.7%로 클로드 소넷 4.6(Sonnet 4.6)에 근접한 수치를 보였습니다. vLLM·SGLang·트랜스포머(Transformers) 등 주요 추론 프레임워크가 모두 1일차(day-0)부터 지원해 배포 난이도도 낮습니다. 라이선스는 수정된 MIT(Modified-MIT)로, 상업적 이용도 가능합니다.

어디에 활용할 수 있을까요? 다중 파일 코드 편집, 코딩-실행-수정(run-fix) 루프, 장시간 자율 브라우저 탐색, 터미널·IDE·CI 파이프라인 자동화, 멀티툴을 넘나드는 복잡한 장기 작업 등 '에이전트 중심'의 개발 환경 전반에 적합합니다.

2위: tencent/HY-Embodied-0.5 | Image-Text-to-Text

"로봇의 뇌를 오픈소스로 풀다… 가상을 벗어나 물리 세계로 뻗어가는 VLM"

텐센트 로보틱스 X 랩(Tencent Robotics X)과 훈위안(Hunyuan) 팀이 공동 개발해 오픈소스로 공개한 '엠보디드(Embodied) 기반 모델'입니다. 구글·피지컬 인텔리전스(Physical Intelligence) 같은 해외 연구소가 비공개로 진행하던 분야에 정면으로 카운터를 날린 릴리스라는 평가입니다. 한마디로 '로봇의 두뇌'를 누구나 쓸 수 있게 풀어둔 모델입니다.

일반 비전-언어 모델(VLM)은 화면 속 이미지를 해석하는 데 특화돼 있습니다. 반면 로봇은 3차원 공간에서 물체가 어디에 있는지, 시간에 따라 장면이 어떻게 변하는지, 어떤 순서로 팔을 움직여야 하는지를 이해해야 합니다. HY-Embodied-0.5는 정확히 이 빈틈을 메우기 위해 처음부터 다시 설계된 모델입니다. 2B(활성 파라미터 기준) 엣지용과 32B 고성능용, 두 가지 버전으로 나옵니다.

핵심은 '믹스처 오브 트랜스포머(MoT, Mixture-of-Transformers)' 아키텍처입니다. 이름만 보면 앞서 설명한 MoE와 비슷해 보이지만, MoT는 모달리티별로 계산 경로를 분리하는 구조입니다. 비전 쪽에는 비전 전용 계산 경로를, 언어 쪽에는 언어 전용 경로를 두고, 그 사이를 '잠재 토큰(latent token)'이 연결합니다. 덕분에 MoT-2B는 총 4B 파라미터를 갖지만 추론 시 활성화되는 것은 2.2B에 불과해, 2B짜리 초경량 모델의 속도를 유지하면서도 훨씬 더 섬세한 시각 표현을 얻습니다.

성능은 숫자로 말합니다. 22개 벤치마크 평가에서 MoT-2B가 동급 최고 수준(SOTA) 모델을 16개 벤치마크에서 앞섰고, 32B 대형 버전은 구글의 프론티어급 모델인 제미나이 3.0 프로에 필적하는 성능을 기록했습니다. 실제 로봇 제어 실험에서도 '정밀 플러그 꽂기' 85%, '식기 쌓기' 80%, '머그잔 걸기' 75%의 성공률을 보이며, 기존 파이0.5(π 0.5) 베이스라인을 상회했습니다.

어디에 활용할 수 있을까요? 가사용 로봇, 산업용 피킹 로봇, 자율주행 에이전트, AR·VR 공간 이해 시스템 등 눈으로 보고 말로 듣고 손으로 움직이는 모든 비전-언어-행동(VLA) 파이프라인의 두뇌로 쓰일 수 있습니다.

3위: zai-org/GLM-5.1 | Text Generation

"100만 파라미터 중 어떤 것을 켤까… 긴 호흡의 에이전트 작업을 끝까지 해내는 지구력"

지난 주 3위를 했는데, 이번 주도 3위입니다. 중국 Z.ai(zai-org)가 발표한 차세대 플래그십 모델로 GLM-4 계열로 익숙한 바로 그 연구진이 GLM-5에 이어 GLM-5.1까지 속도감 있게 내놓았습니다. 공식 모델 카드 기준 총 1.51TB 규모의 대형 MoE 모델이며, FP8 양자화 버전도 함께 공개돼 고성능 서버 환경에서 실전 배포가 가능합니다.

GLM-5.1의 차별점은 '긴 호흡'입니다. 공식 설명에 따르면, 기존 GLM-5를 포함한 많은 모델은 에이전트 작업 초반에 아는 기법을 모조리 쏟아내 빠른 점수를 얻은 뒤, 그 이후부터는 성능 향상이 멈추는 경향이 있습니다. GLM-5.1은 반대로 시간이 지나도 지치지 않고 문제를 계속 쪼개고, 실험하고, 결과를 읽고, 병목을 짚어내는 방향으로 설계됐습니다. 쉽게 말해 단거리가 아니라 마라톤에 최적화된 코딩 에이전트입니다.

성능 지표도 인상적입니다. SWE 벤치 프로에서 SOTA 성능을 달성했고, 레포지토리를 통째로 생성하는 NL2Repo와 실제 터미널 작업을 평가하는 터미널 벤치 2.0에서 전작 GLM-5 대비 큰 격차로 앞섰다고 밝혔습니다. 라이선스는 MIT로, 상업적 이용에 제약이 없다는 점도 매력입니다. 다만 커뮤니티 테스트에서 "컨텍스트 10만 토큰을 넘어가면 성능이 급격히 떨어진다"는 지적도 있어, 매우 긴 문서나 초대형 코드베이스를 다룰 때는 주의가 필요합니다.

어디에 활용할 수 있을까요? 오래 걸리는 코드 리팩터링 작업, 복잡한 버그 재현·수정 루프, 여러 파일과 모듈을 넘나드는 아키텍처 설계, 심층 리서치 등 한 번에 끝나지 않는 에이전트 업무에 특히 어울립니다.

AI 응용프로그램(Spaces) 톱3

허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.

1위: Bonsai 1-bit GPU | prism-ml

"파라미터를 0아니면 1로… 14분의 1로 줄여도 성능은 그대로"

프리즘 ML(Prism ML)이 공개한 '1비트(1-bit) LLM' 온라인 데모입니다. 일반적인 AI 모델은 파라미터 하나하나를 16비트(FP16)로 표현하지만, Bonsai는 이것을 딱 1비트, 즉 0아니면 1의 부호만으로 기록합니다. 128개 파라미터가 하나의 스케일(scale) 값을 공유하는 방식으로 약간의 보조 정보만 더해, 유효 비트를 1.125bpw(bits per weight)까지 낮췄습니다.

효과는 극적입니다. 모델 크기가 FP16 대비 14.1배 작아지고, RTX 4090 같은 소비자용 GPU에서 4.2배 빠른 속도를 냅니다. 8B 크기의 Bonsai 8B가 풀 정밀도(full-precision) 8B 모델과 어깨를 나란히 한다는 것이 프리즘 ML의 주장입니다. '지능 밀도(intelligence density)' 지표로 따지면 풀 정밀도 큐원3 8B보다 10.8배 높다고 합니다. 중요한 것은 이 데모에서 1비트 모델을 실제 GPU에서 돌려보며 속도와 품질을 직접 체감할 수 있다는 점입니다.

현재 1비트 전용 하드웨어는 아직 세상에 없으며, 성능 향상은 전적으로 소프트웨어 커널 최적화로 얻은 것이라는 점은 알아둘 필요가 있습니다. 아이폰·아이패드 같은 엣지 디바이스에서도 돌아가는 단계까지 왔고, 라이선스는 아파치(Apache) 2.0입니다. 스마트폰용 AI 비서, 배터리가 중요한 엣지 로봇, 대역폭이 제한된 오프라인 환경 등에서 진가를 발휘할 기술입니다.

2위: LFM2.5-VL-450M WebGPU | LiquidAI

"웹캠 영상을 브라우저가 곧바로 설명한다… 450M 파라미터로 구현한 실시간 캡셔닝"

리퀴드 AI(Liquid AI)가 공개한 450M(4억 5000만) 파라미터 규모의 초경량 비전-언어 모델을 웹GPU로 브라우저에서 바로 돌려보는 데모입니다. 웹캠을 켜면 모델이 실시간 영상에서 객체를 추적하고, 지금 화면에 무엇이 있는지 한 문장으로 설명해 줍니다. 설치도, API 키도, 서버로의 통신도 필요 없습니다.

기술적으로는 최대 512×512 해상도를 원본 그대로 처리하고, 그보다 큰 이미지는 512×512 패치로 나눠 섬네일 인코딩까지 붙여주는 '타일링(tiling)' 전략을 씁니다. 또 사용자가 추론 시점에 '이미지당 최대 토큰 수'나 '타일 수'를 조정해 속도와 품질 간 균형을 직접 맞출 수 있습니다. 재학습 없이 말이죠.

이 데모가 의미 있는 이유는 명확합니다. 일반적인 영상 이해 모델은 서버로 영상 스트림을 보내 추론하지만, LFM2.5-VL-450M은 약 0.5B 규모라 웹GPU 수준의 가속만으로도 충분히 쓸 만한 속도를 냅니다. 공장 내부의 라인 모니터링, 매장 내 CCTV 분석, 개인 영상 일기 자동 캡셔닝 등 '영상 데이터는 외부로 못 내보내는' 환경에서 강력한 카드가 될 수 있습니다.

3위: Nemotron OCR v2 | nvidia

"흐린 스캔본도, 6개 언어 혼합 문서도 읽어낸다… 엔비디아가 만든 기업용 OCR"

엔비디아가 자사의 네모 리트리버(NeMo Retriever) 컬렉션의 일부로 공개한 차세대 OCR(광학 문자 인식) 모델입니다. 허깅페이스 스페이스에서 문서 이미지나 손글씨 이미지를 업로드하면, 텍스트와 함께 각 글자의 위치(바운딩 박스)까지 함께 돌려줍니다. 스캔본, 차트, 표, 자연 풍경 속 텍스트, 심지어 악필 손글씨까지 폭넓게 처리합니다.

훈련 데이터 구성이 눈길을 끕니다. 약 68만 장의 실제 문서 이미지와 1100만 장 이상의 합성 문서 이미지로 학습됐고, 6개 언어(영어, 일본어, 한국어, 러시아어, 중국어 간체·번체)를 주력으로 처리합니다. 한국어가 정면으로 포함돼 있어 국내 기업의 문서 자동화 시나리오에 바로 활용할 수 있다는 점이 반갑습니다. 평가 지표인 정규화 편집 거리(NED, Normalized Edit Distance)에서 오픈소스 OCR 모델 중 상위권을 차지했습니다.

이 데모에서 체감할 수 있는 강점은 '기업급 실용성'입니다. 결과를 단순 텍스트로 출력할 수도 있고, 단어·문장·단락 단위로 '병합 레벨(merge level)'을 조정해 원하는 구조로 뽑을 수도 있습니다. 라이선스는 엔비디아 오픈 모델 라이선스(상업적 이용 허용)이며, 후처리 스크립트는 아파치 2.0입니다. 계약서·청구서 자동 입력, 해외 논문·리포트 디지털화, 은행·병원의 대량 스캔 문서 색인 등 문서 디지털 전환(DX)이 필요한 모든 현장에 어울립니다.

시사점 & 인사이트

이번 주 트렌드를 한마디로 요약하면 '에이전트가 깊어지고, AI가 물리 세계로 나아가기 시작했다'입니다.

첫째, '에이전트 코딩 모델의 대중화'가 상용 AI 시장의 가격 구조를 흔든다.

미니맥스 M2.7과 Z.ai GLM-5.1은 공교롭게도 같은 방향을 가리킵니다. 가격은 낮추고, 대신 긴 작업을 끝까지 해내는 지구력을 높인다는 것입니다. 지난해까지만 해도 코딩 에이전트를 제대로 쓰려면 월 수십만 원의 프런티어 API 비용을 각오해야 했습니다. 이번 주 공개된 모델들은 그 전제를 뒤흔듭니다. 클로드 소넷 대비 8% 가격이라는 숫자는 기업 의사결정자의 계산기를 처음부터 다시 두드리게 만드는 수치입니다. 국내 서비스형 소프트웨어(SaaS)·스타트업 관점에서는 자체 호스팅 + 오픈 라이선스 조합으로 '비용과 데이터 주권'을 동시에 가져올 기회가 열렸습니다.

둘째, AI가 드디어 '물리 세계'로 발을 내딛고 있다.

텐센트 HY-Embodied-0.5의 등장은 상징적입니다. 지금까지 엠보디드 AI, 특히 상용 배포에 가까운 시스템은 거의 모두 비공개였습니다. 텐센트는 그 벽을 허물고 VLM의 '뇌'를 오픈소스로 풀었습니다. 텍스트 세계를 정복한 거대 언어 모델들이 이제 3차원 공간, 물리적 상호작용, 시간적 변화로 확장되기 시작한 것입니다. 한국은 제조업·로봇·자율주행 등에서 강점이 큰 나라이며, 이런 오픈 엠보디드 모델을 국내 로봇 팔·AGV(무인운반차)·가전과 결합하는 움직임이 빨라질 수밖에 없습니다.

셋째, '온디바이스·저비용 경량화'가 마침내 실전 단계에 진입했다.

프리즘 ML의 1비트 Bonsai, 리퀴드 AI의 LFM2.5-VL-450M, 엔비디아의 네모트론 OCR v2는 공통점이 있습니다. 모두 '거대한 본체'를 쓰지 않고도 현실 문제를 해결할 수 있음을 보여줬다는 점입니다. 14분의 1로 줄어든 모델, 브라우저 안에서 돌아가는 비전-언어 모델, 500MB대로 기업급 OCR을 해내는 구조는 AI의 중심추를 '더 거대한 클라우드'에서 '내 손안의 디바이스'로 조금씩 옮기고 있습니다. 특히 데이터 유출이 곧 법적 리스크인 의료·금융·국방 분야에서는 이 흐름이 단순한 트렌드가 아니라 '반드시 가야 할 길'에 가깝습니다.

토막상식: MoE vs MoT

MoE와 MoT, 이름은 비슷하지만 다른 전략입니다

이번 주 모델 세 곳에서 모두 등장한 용어가 있습니다. 'MoE(전문가 혼합, Mixture of Experts)'와 'MoT(트랜스포머 혼합, Mixture of Transformers)'입니다. 비슷해 보이지만 실제로는 서로 다른 문제를 푸는 전략입니다.

MoE는 분야별 전문가를 여러 명 두고, 질문에 맞는 전문가만 부르는 방식입니다. 미니맥스 M2.7이 대표적입니다. 전체 파라미터는 2300억 개지만, 한 번에 100억 개만 활성화됩니다. 마치 종합병원에 내과·외과·소아과 전문의가 모두 있지만, 환자가 들어오면 증상에 맞는 과만 움직이는 것과 같습니다. 덕분에 모델의 지식 총량은 거대하게 유지하면서도, 한 번의 응답에 드는 비용과 시간은 작게 쓸 수 있습니다.

MoT는 모달리티(시각·언어)별로 계산 경로를 아예 분리하는 방식입니다. 텐센트 HY-Embodied가 대표적입니다. 비전 데이터는 비전 전용 트랜스포머로, 언어 데이터는 언어 전용 트랜스포머로 보낸 뒤, 그 사이를 잠재 토큰이라는 다리로 연결합니다. 눈이 나쁜 통역사와 귀가 어두운 의사를 한 책상에 앉히는 대신, 각자 강점에 특화된 공간을 주고 필요한 정보만 주고받게 만드는 설계입니다. 로봇처럼 시각 정보가 특히 정교해야 하는 문제에 잘 맞습니다.

정리하면 MoE는 '지식을 효율적으로 키우는 법', MoT는 '감각을 효율적으로 다루는 법'에 해당합니다. 둘 다 큰 모델을 그대로 돌리면 비용이 감당 안 된다는 현실에서 출발한 똑똑한 절충안이며, 2026년의 핵심 설계 언어가 될 가능성이 큽니다.

마무리

이번 주 허깅페이스를 한 문장으로 요약하면 이렇습니다. "AI는 더 집요해지고, 더 저렴해지고, 더 물리적으로 변하고 있다." 미니맥스는 클로드의 8% 가격으로 에이전트의 저변을 넓혔고, Z.ai는 긴 작업을 끝까지 끌고 가는 지구력을 보여줬으며, 텐센트는 로봇의 머릿속에 오픈소스 두뇌를 이식했습니다. 프리즘 ML은 모델을 14분의 1로 접었고, 리퀴드 AI는 브라우저에서 영상을 이해하게 했으며, 엔비디아는 6개 언어의 문서를 단숨에 읽어내는 OCR을 공개했습니다. 텍스트를 다루던 AI가 이제 코드를 끝까지 짜고, 물리 세계를 움직이고, 내 기기 안으로 들어오는 문턱, 그 한가운데에 우리가 서 있습니다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

﻿클로드의 8% 가격으로 코딩한다고? ﻿[정원훈의 AI 트렌드]

클로드의 8% 가격으로 코딩한다고? [정원훈의 AI 트렌드]