‘엔비디아·클라우드·GPU’ 없이… AI가 책상 위로 [정원훈의 AI 트렌드]

정원훈 텐에이아이 대표 2026. 5. 15. 06:19
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

허깅페이스 5월 2주차 AI 동향 분석

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 '손이 정교해지고, 눈이 작아지고, 입이 빨라진' 한 주였습니다.

소비자용 그래픽처리장치(GPU) 한 장으로 영상을 만들어내는 오픈소스 비디오 생성 모델이 한 주 만에 월 다운로드 50만 회를 돌파하며 '내 작업실 안의 영상 스튜디오' 시대를 열었습니다. 13억 파라미터에 불과한 '주머니 속 멀티모달' 모델은 자기보다 2~3배 큰 모델들을 줄줄이 제치며 모바일·온디바이스 AI의 새 기준을 세웠습니다. 8B 규모로 GPT급 추론을 흉내내는 효율성의 끝판왕 모델은, 엔비디아가 아닌 'AMD GPU 1024장'으로 학습됐다는 사실 하나만으로도 업계를 뒤흔들었습니다.

이번 주의 키워드는 세 가지입니다. '소비자용 GPU에서도 돌아가는 오픈소스 영상 생성 모델 설퍼-2-베이스(Sulphur-2-base)', '13억 파라미터로 70억급 비전 성능을 낸 미니CPM-V 4.6(MiniCPM-V 4.6)', 'AMD GPU로 학습된 760M 활성 파라미터 추론 모델 자야1-8B(ZAYA1-8B)'입니다. 이번 주도 퀴즈로 시작하겠습니다.

이스라엘 라이트릭스(Lightricks)의 LTX 2.3 비디오 파운데이션 모델을 커뮤니티가 9B 규모로 파인튜닝한 텍스트·이미지 투(to) 비디오 생성 모델입니다. 디스틸드(distilled) LoRA를 함께 쓰면 16GB VRAM의 보급형 GPU에서도 작동하며, 큐원(Qwen) 3.5 9B 기반의 프롬프트 인핸서를 번들로 제공해 한 줄 프롬프트를 영상 친화적인 묘사로 자동 다듬어줍니다. 출시 직후 월 다운로드 50만 회를 돌파한 이 모델의 이름은 무엇일까요. 

칭화대 NLP랩과 모델베스트가 공동 운영하는 오픈BMB(OpenBMB)가 내놓은 이 모델은, 단 13억 파라미터로 큐원3.5(Qwen3.5) 0.8B 대비 19배 적은 토큰을 쓰면서도 인텔리전스 인덱스에서 더 높은 점수를 기록했습니다. 시그립2(SigLIP2) 비전 인코더와 큐원3.5-0.8B 언어 모델 백본을 조합해  아이폰·안드로이드·하모니OS에서 모두 동작하는 '주머니 속 비전 AI'로 화제가 됐습니다. 이 모델의 이름은 무엇일까요. 

정답은 'Sulphur-2-base'와 'MiniCPM-V 4.6'입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.
허깅페이스 5월 2주차 모델과 스페이스 톱3. / 정원훈 제공

AI 모델 톱3

1위: SulphurAI/Sulphur-2-base | Text-to-Video

"GPU 한 장으로 영상 만드는 시대가 열렸다… LTX 2.3 기반 오픈소스 비디오의 약진"

이름이 화학 원소(황·Sulphur)를 닮았습니다만, 실제로는 이스라엘 라이트릭스(Lightricks)의 LTX 2.3 비디오 파운데이션 모델을 커뮤니티가 파인튜닝한 9B 규모의 텍스트·이미지 투(to) 비디오 생성 모델입니다. 출시 직후 월 다운로드 50만 회를 돌파하며 5월 허깅페이스 비디오 카테고리 트렌딩 상위권을 휩쓸었습니다. '구름 위의 거대한 영상 AI'에서 '내 책상 위의 영상 AI'로의 전환을 상징하는 모델이라고 보면 됩니다.

핵심은 '소비자용 GPU에서도 돌아가는 영상 생성 AI'라는 점입니다. 컴파이UI(ComfyUI) 환경에서 텍스트 투 비디오(T2V), 이미지 투 비디오(I2V) 워크플로우 4종이 기본 제공되고, 디스틸드(distilled) LoRA를 함께 쓰면 16GB VRAM의 보급형 GPU에서도 작동합니다. 큐원(Qwen) 3.5 9B 기반의 프롬프트 인핸서(prompt enhancer)까지 번들로 제공해 어색한 한 줄 프롬프트도 영상 친화적인 묘사로 자동 다듬어줍니다. 한마디로 '클라우드 의존 없이 내 작업실에서 굴리는 영상 생성 파이프라인'을 통째로 묶어준 셈입니다.

다만 사용 전 유의할 점이 있습니다. 라이선스가 'LTX-2 커뮤니티 라이선스'로 상업적 이용에 일정 조건이 붙고, 상용 모델 대비 콘텐츠 필터가 다소 느슨하게 설계되어 표현의 자유도가 높은 만큼, 운영 주체가 자체 가이드라인과 후처리 필터를 별도로 갖춰야 안전하게 활용할 수 있습니다. 기술의 자유도와 그에 따른 책임이 동시에 사용자 쪽으로 넘어온 모델이라고 보면 됩니다.

어디에 활용할 수 있을까요. 광고 콘티 시각화, 소규모 인디 영상 제작, 게임 시네마틱 프로토타이핑, 교육용 시뮬레이션 영상 제작, 영화 스토리보드 자동화 등 영상 제작 워크플로우 전반에 적합합니다. 단, 사내 배포 시에는 콘텐츠 거버넌스 설계가 반드시 필요합니다.

2위: openbmb/MiniCPM-V-4.6 | Image-Text-to-Text

"13억 파라미터로 8B급 비전을 한다… '주머니 속 멀티모달'의 새 표준"

이름은 '미니(Mini)'이지만 성능은 미니가 아닙니다. 칭화대 NLP랩과 모델베스트(ModelBest)가 공동 설립한 오픈BMB(OpenBMB)가 내놓은 이 모델은, 단 13억(1.3B) 파라미터로 자기보다 6~7배 큰 모델들의 멱살을 잡았습니다. 한마디로, '경량'과 '강력함'이라는 평소엔 어울리지 않는 두 단어를 한 줄에 꿰어버린 모델입니다.

핵심은 'SigLIP2 비전 인코더 + Qwen3.5-0.8B 언어 모델' 조합입니다. 이미지 한 장, 여러 장, 심지어 영상까지 한꺼번에 이해할 수 있고, 4배·16배 두 가지 시각 토큰 압축 모드를 골라 쓸 수 있어 '품질이냐, 속도냐'를 상황에 맞춰 조절할 수 있습니다. 외부 평가기관 아티피셜 어낼리시스(Artificial Analysis)의 인텔리전스 인덱스에서 13점을 기록하며 알리바바의 Qwen3.5-0.8B(10점)와 Qwen3.5-0.8B-Thinking(11점)을 모두 앞섰는데, 놀라운 점은 같은 평가를 푸는 데 쓴 출력 토큰이 19배에서 43배까지 더 적었다는 사실입니다. 똑똑한 학생이 시험을 더 빨리, 더 적게 쓰고 답을 맞히는 격이죠.

진짜 매력은 '온디바이스'에 있습니다. 아이오에스(iOS), 안드로이드, 하모니OS 모두에서 돌아가도록 엣지 배포 코드가 통째로 오픈소스로 풀려 있고, 모델 크기는 2.6GB 남짓에 불과합니다. 라이선스는 아파치(Apache) 2.0으로 상업적 이용도 자유롭습니다. 클라우드 의존 없이 내 스마트폰 안에서 사진과 영상을 '읽는' AI가, 이제 1.3B 단위로 손에 들어왔다는 이야기입니다.

어디에 활용할 수 있을까요? 스마트폰 사진 자동 분류·캡션 생성, OCR 기반 문서 디지털화, 보안 카메라 영상 분석, 시각장애인용 실시간 환경 설명, 모바일 교육 콘텐츠 분석 등 '카메라가 달린 모든 기기'가 잠재 시장입니다.

3위: Zyphra/ZAYA1-8B | Mixture-of-Experts

"엔비디아 없이 만든 추론 모델… AMD GPU 1024장으로 빚어낸 효율의 미학"

미국 팔로알토의 신생 스타트업 자이프라(Zyphra)가 내놓은 8B 규모의 추론 모델입니다. 그런데 단순한 8B가 아닙니다. 총 84억 파라미터 중 실제 추론할 때 활성화되는 건 단 7억6000만 개(760M). 자동차로 치면 12기통 엔진을 갖고 있되, 평소엔 1.5기통만 굴려서 같은 거리를 가는 'MoE(전문가 혼합·Mixture of Experts)' 구조입니다.

진짜 화제의 본질은 따로 있습니다. 바로 '엔비디아 칩을 한 장도 쓰지 않았다'는 점입니다. AMD 인스팅트(Instinct) MI300X GPU 1024장과 AMD 펜산도(Pensando) 폴라라(Pollara) 인터커넥트로만 사전학습부터 강화학습까지 풀스택을 끝냈습니다. AI 학습 시장에서 엔비디아의 '독점적 위치'가 흔들릴 수 있다는 신호탄으로 업계가 받아들이고 있습니다. 한국 반도체 업계도 주목할 대목입니다.

기술적으로도 새 시도가 많습니다. '압축 컨볼루셔널 어텐션(CCA)'으로 일반 어텐션 대비 KV 캐시를 8배 줄였고, MLP 기반 라우터로 전문가 선택의 안정성을 끌어올렸으며, '학습된 잔차 스케일링(Learned Residual Scaling)'으로 40개 층 깊숙이까지 학습 신호가 매끄럽게 흐르도록 다듬었습니다. 결과적으로 수학·코딩·논리 추론 벤치마크에서 자기보다 훨씬 큰 미스트랄 스몰 4(119B)나 딥시크 V3.2와 어깨를 견주는 성능을 냅니다. 라이선스는 아파치 2.0으로 상업적 활용에 제약이 없습니다.

어디에 활용할 수 있을까요. 온디바이스 코딩 어시스턴트, 수학·과학 교육 AI 튜터, 실시간 추론이 필요한 자율 에이전트, 비용 민감한 R&D 추론 워크로드 등 '추론은 깊되 비용은 가벼워야 하는' 모든 영역에 적합합니다.

AI 응용프로그램(Spaces) 톱3

허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.

1위: Pixal3D | TencentARC

"사진 한 장이 3D 모델로… 텐센트가 꺼낸 '픽셀 정렬' 3D 생성의 결정타"

텐센트 ARC랩(TencentARC)이 내놓은 이미지 투 3D 생성 데모입니다. 시그라프(SIGGRAPH) 2026에 채택된 논문 기반으로, 사진 한 장을 넣으면 그 사진의 시점과 정확히 일치하는 3D 메시(mesh)를 만들어냅니다. 기존 모델들이 이미지 특징을 '대충 어텐션으로 끼얹어' 3D를 만들었다면, Pixal3D는 픽셀 하나하나를 3D 공간으로 '역투영(back-projection)'해서 1대1로 정렬시킨다는 점이 결정적인 차이입니다.

결과는 '복원(reconstruction)에 가까운 충실도'입니다. PBR(물리기반렌더링) 텍스처까지 함께 뽑아주기 때문에 게임 엔진이나 3D 모델링 툴에 바로 끌어다 쓸 수 있는 수준이고, 베이스 모델은 텐센트의 트렐리스 2(Trellis 2)와 다이렉트3D-S2(Direct3D-S2)를 활용했습니다. 게임 에셋 제작, 이커머스 3D 카탈로그, 메타버스 콘텐츠, 건축 시각화 등에서 즉시 생산성 향상을 체감할 수 있는 데모입니다.

2위: Supertonic 3 (TTS) | Supertone

"라즈베리파이에서도 31개 언어로 말한다… 한국 슈퍼톤의 99M 미니 TTS"

한국 스타트업 슈퍼톤(Supertone)이 내놓은 온디바이스 TTS 모델 데모입니다. 슈퍼톤은 하이브(HYBE) 산하 음성 AI 전문 기업으로, 이번 슈퍼토닉 3는 단 9900만(99M) 파라미터로 31개 언어 음성 합성을 지원합니다. 기존 슈퍼토닉 2의 5개 언어에서 6배 이상 언어 폭을 넓혔고, 한국어는 당연히 포함입니다.

핵심 수치를 보면 살짝 놀랍습니다. ONNX 런타임 기반으로 중앙처리장치(CPU)만으로도 A100 GPU의 대형 모델과 견줄 만한 속도를 내고, 메모리도 훨씬 적게 씁니다. 라즈베리파이(2012년 영국의 비영리 재단(라즈베리파이 재단)이 어린이 코딩 교육용으로 만든 '신용카드 크기의 초소형 컴퓨터', 개발자들이 새 모델의 '한계 시험대'로 자주 꺼내 드는 기기)나 e-리더(Onyx Boox)에서 비행기 모드로도 실시간 합성이 가능한 수준입니다. 즉, GPU도, 클라우드도, 인터넷도 필요 없습니다. 모델은 약 305MB로 다운로드와 시작 속도 모두 빠릅니다. 라이선스는 오픈레일(OpenRAIL)로 비교적 관대한 편입니다.

오디오북 자체 제작, 시각장애인 보조 도구, 차량용 내비게이션 음성, 오프라인 학습 콘텐츠, 회의록 음성 변환 등 '인터넷이 없는 곳에서도 말해야 하는' 모든 환경에 적합합니다.

3위 : HiDream O1 Image | HiDream-ai

"9B로 GPT 이미지 2를 넘었다… 픽셀에서 픽셀로, 추론하는 그림쟁이"

하이드림 AI(HiDream-ai)가 공개한 텍스트 투 이미지 생성 모델 데모입니다. HiDream-O1-Image는 9B 파라미터의 '픽셀 단위 통합 트랜스포머(UiT)' 구조를 채택했는데, 기존 이미지 생성 모델들이 VAE(가변 오토인코더)와 별도의 텍스트 인코더를 끼워 맞춘 것과 달리 픽셀·텍스트·작업 조건을 한 토큰 공간에 통째로 녹여 넣었습니다.

성능 수치도 인상적입니다. 컴포지셔널 평가(GenEval) 0.90점으로 GPT Image 2(0.89)를 앞섰고, 휴먼 프리퍼런스(HPSv3)에서도 GPT Image 2와 나노 바나나 2.0(Nano Banana 2.0)을 모두 제쳤습니다. 아티피셜 어낼리시스 텍스트 투 이미지 아레나에서는 8위(2026년 5월 5일 기준)에 올랐는데, 9B라는 규모를 감안하면 가성비가 압도적입니다. 최대 2048×2048 해상도의 고품질 이미지를 한 번에 생성하고, 텍스트 투 이미지·편집·인물/제품 일관성 유지(personalization)를 한 모델로 모두 처리합니다. 라이선스는 MIT로 상업적 이용에 제약이 없습니다.

특히 '리즈닝 프롬프트 에이전트(Reasoning-Driven Prompt Agent)'가 내장돼 사용자가 대충 던진 한 줄도 모델이 스스로 '레이아웃은 어떻게, 인물 표정은 어떻게, 글자는 어디에' 같은 사고 과정을 거쳐 자동으로 정교한 프롬프트로 다듬습니다. 광고 비주얼 기획, 제품 카탈로그 시안 생성, 출판물 일러스트, 책 표지 디자인, 브랜드 스토리보드 작업 등 '말로 시키면 그림으로 응답하는' 크리에이티브 워크플로우에 적합합니다.

시사점 & 인사이트

이번 주 트렌드를 한마디로 요약하면 'AI가 책상 위로 내려왔다'입니다.

첫째, '엣지로 가는 AI'의 가속이 멈추지 않는다.

이번 주 톱으로 뽑은 여섯개 중 설퍼-2-베이스(소비자 GPU에서 영상 생성), 미니CPM-V 4.6(1.3B 온디바이스 멀티모달), 자야1-8B(활성 760M 추론), 슈퍼토닉 3(99M 온디바이스 TTS)까지 대다수가 '소비자 하드웨어 친화형'입니다. AI 산업의 무게중심이 '클수록 좋다'에서 '필요한 만큼만 똑똑하다'로 이동하고 있다는 분명한 신호입니다. 스마트폰, IoT 기기, 자동차, 개인 워크스테이션 같은 일상 디바이스 안으로 AI가 직접 들어가는 시대가 본격화되고 있습니다. 한국이 강한 메모리 반도체와 모바일·가전 분야에서 큰 사업 기회가 열리는 흐름입니다.

둘째, '엔비디아 일색'의 학습 인프라에 균열이 생기고 있다.

자야1-8B가 AMD GPU 1024장만으로 학습됐다는 사실은 단순한 기술 자랑이 아닙니다. 지난 2년간 'AI 학습 = 엔비디아 H100·H200'이라는 공식이 굳어졌지만, AMD MI300X 라인업이 실전 학습에서 충분히 작동한다는 증거가 처음 공개적으로 등장한 셈입니다. 인텔의 가우디(Gaudi), 구글의 TPU, 국내 기업들(리벨리온·퓨리오사AI·사피온)이 추진하는 'NPU 자립' 흐름에도 큰 동력을 제공할 수 있습니다.

셋째, 영상·이미지·음성, 멀티모달 콘텐츠 생성이 '개인 작업실'로 들어왔다.

이번 주 톱6 중 절반(설퍼-2-베이스, Pixal3D, HiDream O1, 슈퍼토닉 3)이 '콘텐츠 생성' 카테고리입니다. 영상은 소비자 GPU에서, 3D는 브라우저에서, 이미지는 9B 모델로, 음성은 99M 모델로 만들 수 있는 시대가 됐습니다. 광고·게임·출판·교육 등 콘텐츠 산업의 제작 비용 구조가 통째로 재편될 가능성이 큽니다. 다만 콘텐츠 필터와 라이선스 정책이 모델마다 천차만별이므로 기업 도입 시에는 '거버넌스 설계'가 기술 선택보다 더 중요한 과제가 되고 있습니다.

토막상식 : ONNX 런타임(Runtime)이란?

슈퍼토닉 3를 설명할 때 "ONNX 런타임 기반으로 CPU만으로도 A100 GPU의 대형 모델과 견줄 만한 속도를 낸다"고 했는데요, '도대체 ONNX가 뭐길래 라즈베리파이에서까지 돌아가지?'라는 의문이 들었을 겁니다. 쉽게 비유하면 ONNX는 'AI 모델계의 만국 공용 콘센트'입니다. 어떤 모델은 페이스북의 파이토치(PyTorch)로, 어떤 모델은 구글의 텐서플로우(TensorFlow)로 학습돼 각자 '콘센트 모양'이 다른데, ONNX(Open Neural Network Exchange) 포맷으로 한 번 변환하면 어디서든 동작합니다. 마이크로소프트(MS)와 페이스북이 2017년에 손잡고 만든 표준으로, 이 변환된 모델을 실제로 실행해주는 엔진이 바로 'ONNX 런타임'입니다. 만국 콘센트에 꽂힌 가전제품에 알맞은 전기를 공급해주는 '스마트 어댑터' 역할이라고 보면 됩니다.

진짜 강점은 'CPU 친화성'입니다. 대부분의 AI 프레임워크는 엔비디아 GPU에 최적화되어 있어 GPU가 없으면 속도가 답답해지지만, ONNX 런타임은 CPU·GPU·NPU·모바일 칩(애플 M 시리즈, 퀄컴 스냅드래곤, 삼성 엑시노스 등)·심지어 라즈베리파이의 ARM 칩까지 각자 다른 하드웨어 특성에 맞춰 연산을 자동 최적화합니다. 결과적으로 슈퍼토닉 3 같은 99M짜리 모델은 GPU 없이 CPU만으로도 거대 모델 못지않은 속도를 냅니다. 모델 자체가 똑똑한 게 아니라, '실행 환경'이 똑똑한 것이죠. 클라우드 의존을 끊고 AI를 내 기기 안에 가두고 싶다면, 그 첫 관문이 바로 이 ONNX 런타임 위에 모델을 올리는 작업입니다. 슈퍼토닉 3가 라즈베리파이에서도, e-리더에서도, 비행기 모드에서도 말할 수 있는 이유가 여기 있습니다.

마무리

이번 주 허깅페이스를 한 문장으로 요약하면 이렇습니다. "AI는 작아지면서 강해졌고, 가까워지면서 빨라졌다." 커뮤니티는 소비자 GPU 한 장으로 영상을 만들어내는 모델을 정상에 올렸고, 칭화대 모델은 13억 파라미터로 주머니 속에 들어왔으며, 자이프라는 엔비디아 없이도 추론 모델을 빚어냈습니다. 거기에 한국 슈퍼톤의 31개 언어 미니 TTS까지 더해지면서, 거대 모델의 시대에서 '필요한 만큼 똑똑한' AI의 시대로 넘어가는 길목, 그 한가운데에 우리가 서 있습니다.

다음 주에는 또 어떤 모델이 허깅페이스 정상을 차지할까요. 영상 생성 분야의 후속 모델이 어디까지 가성비를 끌어올릴지, 자야1-8B처럼 한국 AI 반도체 생태계와 직결되는 학습 인프라 혁신이 나올지, 슈퍼토닉 3에 이어 또 다른 한국 모델이 글로벌 트렌딩에 오를지 함께 지켜봐 주시기 바랍니다. 

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.

Copyright © IT조선. 무단전재 및 재배포 금지.