MoE 전성시대, 500명 중 17명만 일하는 기술 [정원훈의 AI 트렌드]

허깅페이스 2월 4주차 AI 동향 분석

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 '효율 혁명과 작은 거인의 반란'이 동시에 터진 한 주였습니다. 텍스트를 추론하고, 이미지를 생성하고, 브라우저에서 GPT를 직접 훈련시키는 모델과 스페이스가 줄지어 등장했습니다. 마치 AI 올림픽 개막전이라도 한 것 같은 분위기입니다.

이번 주의 키워드는 세 가지입니다. '더 효율적으로(Qwen3.5)', '더 실전적으로(GLM-5)', 그리고 '더 작지만 더 강하게(Nanbeige4.1-3B)'입니다. 단순히 파라미터 숫자를 늘리던 시대가 저물고, 적은 연산으로 더 똑똑하게 작동하는 AI가 기본값이 되는 시대가 본격적으로 열리고 있습니다. 이번 주도 퀴즈로 시작하겠습니다.

"3970억 파라미터를 보유하면서도 실제로는 170억만 활성화해 이전 세대보다 19배 빠른 추론을 달성한 알리바바의 멀티모달 모델은?"

"고작 30억 파라미터로 320억짜리 모델을 여러 벤치마크에서 앞질러 AI 커뮤니티에 충격을 준 중국 소형 모델은?"

정답은 'Qwen3.5-397B-A17B', 'Nanbeige4.1-3B'입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.

AI 모델 톱3

1위: Qwen/Qwen3.5 시리즈 | Image-Text-to-Text

"보는 것도, 읽는 것도, 코딩도 다 하는 알리바바의 '눈 뜬' 멀티모달 거인"

알리바바 클라우드의 큐원(Qwen) 팀이 2월 16일 플래그십 모델인 Qwen3.5-397B-A17B를 전격 공개한 데 이어, 2월 24일에는 중소형 라인업(122B-A10B, 35B-A3B, 27B)까지 한꺼번에 풀었습니다. 허깅페이스 다운로드 수만 48만 건을 넘기며 이번 주 가장 뜨거운 관심을 받았습니다.

가장 눈에 띄는 특징은 통합된 시각·언어 능력입니다. 기존 모델들은 텍스트 모델을 먼저 만든 다음 시각 처리 장치를 나중에 붙이는 방식이었습니다. 마치 자동차를 만들고 나서 내비게이션을 따로 장착하는 것과 비슷하죠. 큐원3.5는 처음부터 텍스트, 이미지, 영상을 함께 학습해서 태어났습니다. 덕분에 기술 문서의 다이어그램을 읽으면서 설명까지 동시에 이해하는 작업에서 훨씬 자연스러운 성능을 보여줍니다.

구조적으로도 혁신적입니다. 이름만 봐도 엄청난 규모(3970억 파라미터)지만, 실제 토큰 처리 시 활성화되는 파라미터는 약 170억 개에 불과합니다. 비유하자면 500명 규모의 전문가 집단을 두고, 질문이 들어올 때마다 딱 맞는 17명의 전문가만 불러내 답하게 하는 겁니다. 선형 어텐션(Gated DeltaNet)과 희소 MoE를 결합한 하이브리드 아키텍처 덕분에 추론 속도는 이전 모델 대비 19배 빨라지고, 비용은 60% 절감됐습니다. 201개 언어와 방언을 지원하는 진정한 의미의 글로벌 AI이기도 합니다.

이번에 공개된 4개 모델은 크게 전문가 혼합(MoE) 모델 3종과 밀집(Dense) 모델 1종으로 나뉩니다. 비유하자면 397B는 플래그십으로 최고성능을 자랑하는 '종합병원', 122B는 에이전틱 테스크 중형 아키텍처로 '전문 클리닉', 35B-A3B는 극한의 효율을 자랑해 '놀라울 정도로 유능한 동네 의원', 27B는 로컬로 배포하고 커스마이징이 가능한 '왕진 가능한 주치의'라 할 수 있습니다. 특히 35B-A3B는 활성 파라미터가 30억에 불과한데도 이전 세대의 220억 활성 모델을 능가합니다. Dense 모델인 27B는 MoE의 라우팅 오버헤드가 없어 단일 GPU 배포가 간단하고 파인튜닝이 수월해 로컬 환경에서 직접 모델을 수정·운영하려는 개발팀에 적합합니다.

어디에 활용할 수 있을까요? 이미지·동영상 분석이 필요한 비즈니스 인텔리전스, 다국어 에이전트 개발, 멀티미디어 콘텐츠 이해 등에 적합합니다. 특히 100만 토큰 컨텍스트 윈도를 지원하는 호스팅 버전(Qwen3.5-Plus)은 대규모 코드베이스 분석이나 방대한 문서 세트 처리에 검색증강생성(RAG) 파이프라인 없이도 활용할 수 있습니다. 아파치(Apache) 2.0 라이선스로 상업적 활용도 자유롭습니다.

2위: zai-org/GLM-5 | Text Generation

"바이브 코딩은 끝났다, 이제 에이전틱 엔지니어링이다"

청화대학교 연구팀이 창업한 Zhipu AI(智谱AI) 즉 Z.ai(지에이아이)가 내놓은 GLM-5는 한마디로 '오픈소스 코딩 최강자'를 노리는 야심작입니다. 재미있는 건 이 모델의 등장 방식입니다. 2월 6일 오픈라우터(OpenRouter)에 'Pony Alpha'라는 정체불명의 이름으로 먼저 나타나 4일 만에 250억 개 토큰이 소비될 만큼 인기를 끌었습니다. 2026년이 병오년, 즉 말띠의 해라는 걸 생각하면, 'Pony'라는 이름에 숨겨진 재치가 느껴지시죠? 규모 면에서도 엄청납니다. GLM-5는 전작인 GLM-4.5의 3550억 파라미터(활성 320억)에서 무려 7440억 파라미터(활성 400억)로 두 배 이상 확장됐고, 사전학습 데이터도 23조 토큰에서 28.5조 토큰으로 늘어났습니다. 쉽게 말해, 도서관 책 한 권짜리 AI가 이제 도서관 건물 자체가 된 셈입니다.

특히 주목할 점은 두 가지입니다. 첫째, 딥시크 희소 어텐션(DeepSeek Sparse Attention, DSA) 기술을 통합해 배포 비용을 크게 절감하면서도 긴 맥락 처리 능력은 그대로 유지했다는 것입니다. 둘째, 자체 개발한 비동기식 강화학습 인프라 '슬라임(slime)'입니다. 전통적인 강화학습이 100명이 한 줄로 서서 한 명씩 시험을 보는 방식이라면, 슬라임은 각자 독립적으로 시험을 치르게 합니다. 이 덕분에 복잡한 에이전트 태스크의 훈련 효율이 획기적으로 개선됐습니다.

SWE-bench Verified에서 77.8%, AIME 2026에서 92.7%, GPQA-Diamond에서 86.0%를 기록하며 오픈소스 모델 가운데 Artificial Analysis 인텔리전스 지수 1위를 차지했습니다. MIT 라이선스로 공개된 데다 API 가격도 입력 토큰 100만 개당 약 1달러 수준으로, GPT나 클로드(Claude) 같은 프론티어 상업 모델 대비 파격적입니다.

어디에 활용할 수 있을까요? 복잡한 소프트웨어 엔지니어링, 장기 자율 에이전트 작업, 코딩 자동화, 사람 대신 일하는 AI가 필요한 모든 실무 영역에서 활용 가능합니다. 프롬프트 하나로 .docx, .pdf, .xlsx 같은 완성된 문서를 자율적으로 만들어내는 '에이전틱 엔지니어링'이 이 모델의 핵심 슬로건입니다.

3위: Nanbeige/Nanbeige4.1-3B | Text Generation

"30억 파라미터로 300억짜리를 이기다, 작은 거인의 대반란"

이번 주 가장 '통쾌한' 뉴스를 꼽으라면 단연 난베이거(Nanbeige)의 Nanbeige4.1-3B입니다. 고작 30억(3B) 파라미터짜리 모델이 Qwen3-32B(320억 파라미터)를 여러 벤치마크에서 앞질렀다는 소식은 AI 커뮤니티에 적잖은 충격을 줬습니다. 모델 크기가 약 7GB에 불과해 일반 소비자용 GPU나 맥북에서도 충분히 돌릴 수 있습니다.

그런데 진짜 포인트는 '올라운드 능력'입니다. 기존 소형 모델들은 수학은 잘하지만 코딩은 못하거나, 코딩은 잘하지만 에이전트 작업은 못하는 식으로 편식이 심했습니다. Nanbeige4.1-3B는 추론, 코딩, 에이전트 작업을 모두 높은 수준으로 소화하는 최초의 오픈소스 소형 범용 모델입니다. AIME 2026 수학 벤치마크에서 87.4%, Arena-Hard-v2 정렬 평가에서 73.2를 기록하며 자신보다 10배 이상 큰 모델들과 어깨를 나란히 합니다.

가장 인상적인 기능은 딥서치(Deep Search) 역량입니다. 최대 600회에 달하는 도구 호출을 안정적으로 수행할 수 있어, 기존에는 대형 모델이나 전문 에이전트만 가능했던 복잡한 문제 해결 워크플로를 소형 모델로도 처리할 수 있게 됐습니다. '파라미터 숫자 = 성능'이라는 오래된 등식에 균열을 낸다는 점에서 의미가 큽니다.

어디에 활용할 수 있을까요? 예산이 제한된 스타트업이나 연구팀의 코딩 보조, 로컬 환경에서의 추론·에이전트 작업, 엣지 디바이스 배포, AI 교육용 실습 모델 등에 적합합니다. 아파치 2.0 라이선스로 상업적 활용도 가능합니다.

AI 응용프로그램(Spaces) 톱3

허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.

1위: Trackers | Roboflow

"영상 속 모든 것을 추적하다, 코딩 없이"

동영상 하나를 올리고 추적하고 싶은 객체를 선택하면? 그대로 됩니다. 로보플로우(Roboflow)의 트래커(Trackers)는 30초 이내 영상을 업로드하고, 탐지 모델과 추적 알고리즘을 고른 뒤, 신뢰도 임계값만 설정하면 영상 속 사람, 차량, 물체의 이동 경로를 자동으로 시각화해주는 웹 앱입니다.

ByteTrack, BoT-SORT 등 다양한 멀티 객체 추적 알고리즘을 모듈 방식으로 제공하며, RF-DETR이라는 자체 실시간 탐지 모델과 결합돼 있습니다. 코딩 한 줄 없이도 전문적인 객체 추적 결과물을 얻을 수 있다는 점이 핵심입니다.

어디에 활용할 수 있을까요? 물류 창고의 재고 이동 추적, 매장 내 고객 동선 분석, 스포츠 경기 영상의 선수 추적, 교통 모니터링 등 산업 현장에서 바로 활용 가능합니다. 아파치 2.0 라이선스이므로 상업적 활용에도 제약이 없습니다.

2위: BitDance-14B-64x | shallowdream204

"이미지 생성, 30배 빨라진 비밀은 '0과 1'에 있었다."

'AI가 그림을 그린다'는 말, 이제 진부할 수도 있습니다. 그런데 바이트댄스(BitDance)는 좀 다릅니다. 기존 자기회귀(Autoregressive) 이미지 생성 모델은 1만6000개 이상의 코드북 항목에서 다음 토큰을 예측해야 해서 느렸습니다. 바이트댄스는 이를 바이너리(0과 1) 토큰으로 대체해 한 토큰이 최대 2의 256승(!) 가지 상태를 표현할 수 있게 했습니다.

거기에 '넥스트 패치 디퓨전'이라는 기법으로 한 번에 64개 토큰을 동시에 예측합니다. 쉽게 말해, 기존 모델이 글자를 한 자 한 자 써내려갔다면, 바이트댄스는 문단 단위로 도장을 찍듯 이미지를 만들어내는 셈입니다. 기존 모델 대비 30배 이상의 속도 향상을 달성했으며, 14B 파라미터로 소비자용 GPU(RTX 3090/4090)에서도 실행 가능합니다.

어디에 활용할 수 있을까요? 텍스트 프롬프트 기반 고해상도 이미지 생성, 광고 소재 빠른 프로토타이핑, 게임 아트 콘셉트 디자인 등에 활용할 수 있습니다. 오픈소스로 공개돼 있어 자체 서비스에 통합하기도 용이합니다.

3위: microgpt.js | webml-community

"브라우저에서 GPT를 직접 훈련시키다, 설치도 GPU도 필요 없이"

2월 12일, 전 테슬라 AI 총괄이자 오픈AI 공동창업자인 안드레이 카파시(Andrej Karpathy)가 단 243줄의 순수 파이썬 코드로 GPT를 처음부터 학습시키고 텍스트를 생성하는 'microgpt'를 공개했습니다. 파이토치(PyTorch)도, 텐서플로우(TensorFlow)도, 넘파이(NumPy)도 쓰지 않습니다. 토크나이저, 자동미분 엔진, 트랜스포머 아키텍처, 아담 옵티마이저까지 전부 순수 파이썬으로 구현된 말 그대로 '예술 작품'입니다.

webml-community의 microgpt.js는 이것을 자바스크립트 옮겨 브라우저에서 직접 실행할 수 있게 만들었습니다. 텍스트를 업로드하거나 프롬프트를 입력하면 바로 소형 모델을 훈련시키고 텍스트를 생성할 수 있습니다. 서버도, 설치도, GPU도 필요 없습니다.

어디에 활용할 수 있을까요? AI 교육 현장에서 거대언어모델(LLM)의 작동 원리를 직접 체험하는 실습 도구, 트랜스포머 아키텍처를 처음 공부하는 학생들의 학습 교재, 경량 프로토타이핑 등에 쓸 수 있습니다. LLM이 어떻게 작동하는지 이해하고 싶다면 이보다 좋은 교재는 없을 겁니다.

시사점 & 인사이트

이번 주 트렌드를 한마디로 요약하면 '효율의 혁명, 작은 거인의 반란, 그리고 에이전트의 부상'입니다.

첫째, MoE 아키텍처가 새로운 표준이 되고 있습니다. Qwen3.5(3970억 중 170억 활성), GLM-5(7440억 중 400억 활성), Nanbeige(30억으로 극한 효율) 모두 '전체 파라미터 대비 실제 활성 파라미터'를 극적으로 줄이는 전략을 채택했습니다. AI 모델의 경쟁 기준이 '얼마나 큰가'에서 '얼마나 효율적인가'로 빠르게 이동하고 있습니다. 이는 결국 AI 서비스의 비용 절감과 접근성 확대로 이어질 것입니다.

둘째, '에이전트'가 새로운 표준이 되고 있습니다. GLM-5의 '에이전틱 엔지니어링', Nanbeige의 600턴 도구 호출, Qwen3.5의 내장 도구 지원까지. 이번 주 공개된 모든 주요 모델이 '대화형 챗봇'을 넘어 '자율적 업무 수행 에이전트'로의 전환을 강조하고 있습니다. AI가 '말하는 도구'에서 '일하는 동료'로 변모하는 흐름이 뚜렷합니다.

셋째, 소형 모델의 반란이 시작됐습니다. Nanbeige4.1-3B가 보여준 것처럼, 학습 데이터의 품질과 강화학습 기법의 정교함이 모델의 크기보다 더 중요할 수 있다는 것이 실증됐습니다. 예산이 제한된 스타트업이나 엣지 디바이스 환경에서도 프론티어급 성능을 확보할 수 있는 시대가 다가오고 있습니다.

넷째, 중국 AI의 '설 연휴 총공세'가 계속되고 있습니다. 이번 주 모델 톱3가 모두 중국 팀에서 나왔습니다. 미국의 수출 규제 속에서도 알리바바, 지에이아이, 난베이거가 연달아 프론티어급 모델을 쏟아내고 있으며, 모두 MIT 또는 아차피 2.0 같은 허용적 라이선스로 공개돼 글로벌 AI 생태계에 직접적인 영향을 미치고 있습니다.

토막 상식: MoE(전문가 혼합)… "500명 중 17명만 일하게 하는 기술"

이번 주 소개된 Qwen3.5, GLM-5, 그리고 Nanbeige4.1까지, 겉으로 보면 규모와 용도가 제각각이지만 이들 모두 공통적으로 한 가지 설계 철학을 공유합니다. 바로 MoE(Mixture-of-Experts, 전문가 혼합)입니다.

개념은 생각보다 단순합니다. 회사에 500명의 전문가가 있다고 상상해보세요. 법률 질문이 들어오면 변호사 팀만, 코딩 문제가 들어오면 개발자 팀만 회의실에 불려갑니다. 500명 전원이 매번 회의에 참석할 필요가 없는 거죠. AI도 똑같습니다. 모델 내부에 수많은 '전문가 네트워크'를 두고, 입력 데이터의 성격에 따라 가장 적합한 몇 명의 전문가만 골라서 활성화합니다.

그럼 그냥 작은 모델을 쓰면 되는 거 아닌가요? 여기서 MoE의 묘미가 드러납니다. 전체 파라미터가 크다는 건 '기업이 보유한 인재 풀이 넓다'는 뜻입니다. 질문의 종류에 따라 다양한 전문가를 꺼내 쓸 수 있으니, 단순히 소수의 직원만 두는 것보다 훨씬 다양한 문제에 대응할 수 있습니다. 다만 한 번에 동원하는 인원은 소수이므로, 연산 비용은 작은 모델 수준으로 유지됩니다.

이번 주 구체적으로 살펴보면 이렇습니다. Qwen3.5-397B-A17B는 3970억 파라미터 중 170억만 활성화해 이전 세대 대비 19배 빠른 추론 속도를 달성했습니다. GLM-5는 7440억이라는 엄청난 규모에서 400억만 깨워 쓰면서 오픈소스 1위 성능을 기록했습니다. 심지어 Qwen3.5-35B-A3B는 30억 활성 파라미터만으로 이전 세대 220억 활성 모델을 앞질렀습니다.

한마디로, MoE는 '큰 두뇌의 지식을 작은 비용으로 활용하는 기술'입니다. 그리고 지금 허깅페이스를 달구는 모델들은 모두 이 기술이 얼마나 성숙했는지를 증명하고 있습니다.

마무리

이번 주 허깅페이스는 '더 효율적으로, 더 실전적으로, 더 작지만 더 강하게'를 동시에 보여줬습니다. AI 모델이 쏟아지는 속도가 점점 빨라지고 있습니다. 이번 주만 해도 중국 3대 AI 세력(Alibaba, Z.ai, Nanbeige)이 동시에 대형 모델을 공개했습니다. 이 경쟁의 수혜자는 결국 우리, 사용자들입니다. 중요한 건 이 기술을 어떻게 활용할 것인가입니다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

﻿MoE 전성시대, 500명 중 17명만 일하는 기술 ﻿[정원훈의 AI 트렌드]

MoE 전성시대, 500명 중 17명만 일하는 기술 [정원훈의 AI 트렌드]