0.9B가 GPT-4o 이긴 비결 [정원훈의 AI 트렌드]

허깅페이스 2월 2주차 AI 동향 분석

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 '멀티모달의 진화'를 선언하고 있습니다.

문서를 읽고, 영상을 이해하며, 실시간으로 대화하는 AI, 이들의 공통점이 뭘까요. 바로 'AI가 인간처럼 여러 감각을 동시에 사용하기 시작했다'는 겁니다. 불과 1년 전만 해도 AI는 텍스트나 이미지 중 하나만 다뤘습니다. 이제는 동시에 처리합니다. AI가 보고, 듣고, 이해하고, 대답합니다. 심지어 사람처럼 동시에 듣고 말하면서요. 이번 주 허깅페이스에 등장한 현실입니다. 단일 모달리티 AI 시대가 저물고, '멀티모달이 기본인 AI 시대'가 본격적으로 열리고 있습니다. 이번 주도 퀴즈로 시작하겠습니다.

"겨우 0.9B 파라미터로 GPT-4o와 제미나이 2.5를 능가하는 문서 이해 성능을 보여주는 Z.ai의 이미지-투-텍스트 모델은?"

"보고, 듣고, 말하는 것을 동시에 처리하며, 실시간 풀 듀플렉스 스트리밍이 가능한 9B 파라미터의 애니-투-애니 모델은?"

정답은 'GLM-OCR', 'MiniCPM-o 4.5'입니다. 그럼 이번 주에는 어떤 '멀티모달 AI 혁신'이 등장했는지 함께 살펴보겠습니다.

AI 모델 톱3

1위: zai-org/GLM-OCR | Image-to-Text

"작지만 강하다는 말이 이렇게 와닿는 순간"

지난주 2위였던 Z.ai가 개발한 GLM-OCR이 1위를 차지했습니다. 복잡한 문서 이해를 위해 설계된 멀티모달 OCR 모델이며, GLM-V 인코더-디코더 아키텍처를 기반으로 합니다.

주요 특징으로 최고 수준의 성능을 자랑합니다. 옴니독벤치(OmniDocBench) V1.5에서 94.62점으로 1위를 기록했습니다. 수식 인식에서는 96.5점으로 GPT-4o와 제미나이 2.5를 능가합니다. 놀라운 효율성을 보여줍니다. 겨우 0.9B 파라미터로 대형 모델들을 압도하죠. "작아도 똑똑하다"는 걸 증명했습니다. 실전 최적화가 뛰어납니다. 복잡한 표, 코드, 도장, 실제 비즈니스 문서 레이아웃에서 강력한 성능을 유지해요. 빠른 추론 속도를 자랑합니다. vLLM, SGLang, Ollama 배포를 지원하며, PDF 문서를 초당 1.86페이지, 이미지를 초당 0.67장 처리합니다.

어디에 활용할 수 있을까요? 첫째, 법률 문서 자동화에 최적입니다. 법무법인이 수백 페이지 계약서를 순식간에 디지털화하고 핵심 조항을 추출할 수 있어요. 변호사의 문서 검토 시간이 대폭 단축됩니다. 둘째, 회계 자동화에 유용합니다. 복잡한 재무제표, 영수증, 세금 서류를 자동으로 처리하고 구조화된 데이터로 변환하죠. 셋째, 학술 연구에 씁니다. 오래된 논문의 수식을 LaTeX로 변환하거나, 스캔된 문헌을 검색 가능한 텍스트로 만들어요. 넷째, 의료 기록 디지털화에 활용됩니다. 손으로 쓴 의료 차트, 처방전, 진단서를 정확하게 디지털 기록으로 전환합니다.

AI 업계의 "크면 무조건 좋다" 공식을 깨뜨린 사례입니다. 효율성이 곧 경쟁력이 되는 시대가 열렸습니다.

2위: moonshotai/Kimi-K2.5 | Image-Text-to-Text

"사진 속 복잡한 그래프를 '읽고' 분석까지 해준다면?"

지난 주 1위였던 Kimi-K2.5가 2위로 자리 바꿈했습니다. 중국 스타트업 문샷AI가 선보인 비디오 이해 능력도 갖춘 멀티모달 모델로 이미지와 영상, 텍스트를 동시에 이해합니다.

주요 특징으로 멀티모달 이해 능력이 뛰어납니다. 단순히 이미지를 인식하는 수준을 넘어 그래프, 차트, 문서의 의미와 맥락까지 파악해요. 복잡한 데이터 시각화도 정확히 해석합니다. 아시아권 언어 특화 처리가 강점입니다. 특히 한국어, 중국어, 일본어 같은 동아시아 언어와 문화적 맥락 이해도가 높아요. 서양 중심 모델들이 놓치는 디테일을 잡아냅니다. 싱킹 모드가 인상적입니다. AI가 답변하기 전 내부 추론 과정을 사용자에게 보여줘요. AIME 2025에서 평균 31.5점을 기록하며 복잡한 수학 문제 해결 능력을 입증했죠. 실용적인 시각 분석이 가능합니다. 요리 사진을 보고 레시피를 제안하거나, 해외 메뉴판을 해석하는 등 일상적 활용도가 높습니다.

어디에 활용할 수 있을까요? 첫째, 의료 영상 분석에 활용됩니다. 엑스레이(X-ray)나 컴퓨터 단층촬영(CT) 이미지를 분석하고 소견을 제시할 수 있어요. 의료진의 판단을 보조하는 도구로 씁니다. 둘째, 제품 검수 자동화에 유용합니다. 제품 사진을 보고 불량 여부나 품질을 판단할 수 있죠. 셋째, 교육용 학습 도우미로 활용됩니다. 학생이 문제집 사진을 찍으면 풀이 과정까지 설명합니다. 넷째, 건축 설계 검토에 씁니다. 도면이나 설계도를 분석하고 개선점을 제안합니다.

텍스트만으로는 설명하기 어려운 정보들을 AI가 이해하기 시작했다는 점이 중요합니다. "백문이 불여일견"이 AI 세계에서도 통하는 시대입니다

3위: openbmb/MiniCPM-o-4_5 | Any-to-Any

"보고, 듣고, 말하는 AI의 완성형"

오픈BMB(OpenBMB)의 MiniCPM-o 4.5는 'Any-to-Any' 모델의 진수를 보여줍니다. 9B 파라미터로 제미나이 2.5 플래시에 근접하는 성능을 내며, 무엇보다 '풀 듀플렉스 라이브 스트리밍'이 가능합니다.

주요 특징으로 풀 듀플렉스 스트리밍이 혁신적입니다. 실시간으로 비디오와 오디오를 동시에 받아들이면서, 동시에 텍스트와 음성으로 대답해요. 일반 AI가 "듣고 → 생각하고 → 말하는" 순서라면, MiniCPM-o 4.5는 사람처럼 동시에 듣고 말합니다. 강력한 시각 능력을 자랑합니다. 오픈콤파스(OpenCompass)에서 평균 77.6점을 기록하며 GPT-4o, 제미나이 2.0 프로를 능가했죠. 9B 파라미터로는 놀라운 성능입니다. 실시간 음성 대화가 가능합니다. 영어와 중국어로 자연스럽고 표현력 있는 대화를 나눌 수 있어요. 음성 클로닝과 롤플레이 기능까지 제공합니다. 능동적 상호작용을 지원합니다. AI가 스스로 중요한 순간을 포착해 알림이나 코멘트를 던져요. 단순히 반응하는 게 아니라 주도적으로 소통합니다.

어디에 활용할 수 있을까요? 첫째, 실시간 통역 서비스에 최적입니다. 국제 회의나 다국어 미팅에서 동시통역처럼 작동할 수 있어요. 둘째, 스마트 홈 비서로 유용합니다. 카메라로 상황을 보면서 음성으로 대화하며 집안일을 돕죠. 셋째, 교육 튜터로 활용됩니다. 학생의 표정과 목소리를 동시에 파악하며 맞춤형 학습 지도를 제공해요. 넷째, 의료 모니터링에 씁니다. 환자의 상태를 실시간으로 관찰하며 이상 징후를 즉시 알려줍니다.

사람과 AI의 경계가 허물어지는 순간입니다. 진짜 대화하는 AI 시대가 열리고 있습니다.

AI 응용프로그램(Spaces) 톱3

허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.

1위: ACE-Step v1.5

"10초면 작곡가가 될 수 있습니다."

ACE 스튜디오(ACE Studio)의 음악 생성 파운데이션 모델 체험 공간입니다. 짧은 오디오 클립을 업로드하거나 데이터셋에서 선택하면 AI가 새로운 곡을 만들어냅니다. 사용법이 매우 직관적입니다. 텍스트 프롬프트로 원하는 스타일을 설명하거나, 참고 트랙을 제공해 스타일을 가이드할 수 있어요. A100 GPU에서 2초, RTX 3090에서 10초 만에 완전한 곡이 완성됩니다. 콘텐츠 크리에이터들은 저작권 걱정 없는 배경음악을, 게임 개발자는 맞춤형 OST를, 광고 대행사는 클라이언트 맞춤 징글을 순식간에 만들 수 있죠. 50개 이상 언어를 지원하고 1000개 이상의 악기와 스타일을 구현합니다. 상업적으로도 자유롭게 활용 가능해 창작자들에게 인기입니다.

2위: GLM OCR Demo

"드래그 앤 드롭으로 문서 전문가 되기"

프리티브엠엘모즈(prithivMLmods)가 만든 GLM-OCR 모델 체험 공간입니다. 복잡한 문서의 텍스트, 수식, 표를 자동으로 인식합니다. 사용법이 매우 직관적입니다. 이미지나 PDF를 업로드하고 인식 타입(텍스트, 수식, 표)을 선택하면 됩니다. 몇 초 후 정확하게 추출된 내용을 확인할 수 있어요. 법률 문서 검토, 재무제표 분석, 학술 논문 디지털화 등 실무에서 바로 쓸 수 있죠. 특히 복잡한 수식이 포함된 과학 논문을 LaTeX로 변환하는 기능이 연구자들에게 인기입니다. 0.9B 파라미터로 GPT-4o와 제미나이 2.5를 능가하는 성능을 직접 체험할 수 있는 공간입니다.

3위: FASHN VTON v1.5

"거울 앞에서 옷 갈아입는 시대는 끝났습니다."

독일 베를린 기반의 패션테크 전문 스타트업인 fashn-ai의 가상 착용 체험 공간입니다. 마스크 없이 픽셀 공간에서 직접 작업하는 혁신적 기술을 경험할 수 있습니다. 사용자 사진과 옷 사진을 업로드하고 'Try On' 버튼을 클릭하면 끝이에요. H100 GPU에서 약 5초 만에 사실적인 가상 피팅 결과가 나옵니다. 기존 모델들과 달리 마스크가 필요 없어 루즈한 스웨터처럼 부피가 큰 옷도 자연스럽게 처리하죠. VAE 없이 RGB 픽셀로 직접 작업해 옷의 로고, 패턴, 질감이 완벽하게 보존됩니다. 온라인 쇼핑몰 운영자, 패션 디자이너, 스타일리스트들이 실제 비즈니스에 어떻게 적용할 수 있는지 직접 테스트해볼 수 있는 공간입니다.

시사점 & 인사이트

이번 주 트렌드를 한마디로 요약하면 "멀티모달의 진화와 효율성의 승리"입니다.

첫째, 멀티모달이 표준이 되고 있습니다. Kimi-K2.5와 MiniCPM-o 4.5가 보여주듯, AI는 이제 텍스트만 다루지 않아요. 이미지, 비디오, 오디오를 동시에 처리하며, 심지어 실시간 스트리밍까지 가능합니다. GLM-OCR도 단순 텍스트 인식을 넘어 이미지 속 복잡한 구조와 의미를 이해하죠. 네이버, 카카오 같은 국내 기업들도 멀티모달 역량 강화에 집중해야 하는 이유입니다.

둘째, 작지만 강한 모델의 부상이 뚜렷합니다. GLM-OCR의 0.9B 파라미터 성공은 중요한 메시지를 던져요. AI 업계가 "더 크게, 더 많은 데이터로"만 달려온 것과 달리, 이제는 효율성이 핵심 경쟁력입니다. 특히 엣지 디바이스나 소비자 하드웨어에서 작동하는 AI의 중요성이 커지면서, 한국 기업들도 "거대 모델 경쟁"보다 "효율적 모델 개발"에 집중해야 합니다.

셋째, 실시간 상호작용이 AI의 새로운 기준이 됐습니다. MiniCPM-o 4.5의 풀 듀플렉스 스트리밍은 AI와의 소통 방식 자체를 바꾸고 있어요. "질문 → 대기 → 응답"이 아니라 사람처럼 동시에 듣고 말하는 자연스러운 대화가 가능해졌습니다. 고객 상담, 교육, 의료 등 실시간 소통이 중요한 모든 분야에서 게임 체인저가 될 겁니다.

넷째, 창작 도구의 민주화가 가속화되고 있습니다. ACE-Step v1.5 스페이스처럼 음악 생성, FASHN VTON v1.5 스페이스처럼 가상 피팅, GLM OCR Demo처럼 문서 이해 등 전문가의 영역이었던 모든 것이 대중의 도구로 내려왔어요. 고가의 장비나 수년간의 훈련 없이도 누구나 자신의 아이디어를 현실로 만들 수 있는 시대입니다. 이는 1인 창작자, 소규모 스타트업의 경쟁력을 획기적으로 높여줍니다.

토막 상식: AI 모델의 크기를 나타내는 '파라미터'

파라미터(Parameter)는 AI 모델의 "뇌세포"입니다. 사람의 뇌에 약 860억 개의 뉴런이 있듯, AI 모델에는 수억~수천억 개의 파라미터가 있어요. 1B(Billion)는 10억 개를 의미합니다.

GLM-OCR의 0.9B는 9억 개 파라미터입니다. Kimi-K2.5의 171B는 1710억 개죠. MiniCPM-o 4.5의 9B는 90억 개입니다. GPT-4는 추정 1.7조 개(1700B) 정도로 알려져 있어요.

일반적으로 파라미터가 많을수록 복잡한 작업을 잘 처리하지만, 컴퓨터 성능도 더 많이 필요합니다. 그런데 GLM-OCR은 "작아도 똑똑한" 예외를 보여줬죠. 0.9B로 대형 모델들을 압도했습니다.

이게 중요한 이유는 뭘까요? 큰 모델은 강력하지만 고가의 서버가 필요해요. 작은 모델은 여러분의 노트북이나 스마트폰에서도 작동합니다. ACE-Step v1.5가 4GB VRAM에서 작동한다는 건, 일반 게이밍 노트북으로도 충분하다는 뜻이에요.

한마디로, 파라미터는 AI의 "지능 용량"이지만, 반드시 "크다 = 좋다"는 아닙니다. 효율성이 새로운 경쟁력이 되고 있으니까요.

마무리

이번 주 허깅페이스는 "멀티모달의 진화"를 보여줬습니다. AI가 이제 우리처럼 보고, 듣고, 말하기 시작했어요. 텍스트만 다루던 시대는 지나가고, 총체적 감각을 가진 AI 시대가 열리고 있습니다. 동시에 0.9B 파라미터로 거대 모델을 능가하는 효율성의 혁명도 목격했죠.

중요한 건 이 기술을 어떻게 활용할 것인가입니다. 다음주에는 또 어떤 혁신이 우리를 기다리고 있을까요? AI는 빠르게 변합니다. 그렇기에 변화를 읽는 눈은 더 빠르게 키워야 합니다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

0.9B가 GPT-4o 이긴 비결 [정원훈의 AI 트렌드]