소리까지 만드는 AI, 생각까지 베끼는 AI [정원훈의 AI 트렌드]

허깅페이스 3월 2주차 AI 동향 분석

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 '영상이 귀를 얻고, 오픈소스가 이성을 갖고, AI가 손안으로 들어온' 한 주였습니다. 영상에 소리까지 자동으로 입혀주는 모델이 오픈소스로 공개되는가 하면, 폐쇄형 최강 AI의 추론 능력을 공개 모델에 이식하는 대담한 실험이 등장했습니다. 그리고 그 모든 AI를 서버 설치도 없이 브라우저 탭 하나로 돌리는 조용한 혁신도 이번 주를 수놓았습니다.

이번 주의 키워드는 세 가지입니다. '영상과 소리를 동시에 만드는 LTX-2.3', '클로드(Claude)의 추론을 오픈소스로 이식한 Qwen3.5-27B Distilled', 그리고 '손바닥만 한 모델이 브라우저를 무대로 삼은 Qwen3.5 0.8B WebGPU'입니다. 별도의 영상 편집 툴이 없어도, 값비싼 API 비용 없이도, 서버 한 대 없어도 최신 AI를 쓸 수 있는 세상이 눈앞에 펼쳐지고 있습니다. 이번 주도 퀴즈로 시작하겠습니다.

"이스라엘 AI 스타트업 라이트릭스(Lightricks)가 공개한 이 모델은 사진 한 장을 넣으면 영상과 음향을 동시에 만들어 줍니다. DiT 구조 기반에 22B 파라미터 규모이며, 소라·런웨이(Sora·Runway) 같은 상용 영상 생성 서비스를 긴장시키는 오픈소스 대항마로 주목받고 있습니다. 이 모델의 이름은?"

"앤트로픽이 개발한 클로드 오퍼스(Claude Opus) 4.6의 추론 패턴을 Qwen3.5-27B에 지식 증류(Knowledge Distillation)로 이식한 이 모델은 비싼 상용 AI 없이도 단계적 논리 추론·수학 풀이·코딩에서 경쟁력 있는 성능을 보여줍니다. 가장 화제를 모은 점은 아파치(Apache) 2.0 라이선스로 상업적 사용도 자유롭다는 것입니다. 이 모델의 이름은?"

정답은 'LTX-2.3'과 'Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled'입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.

AI 모델 톱3

1위: Lightricks/LTX-2.3 | Image-to-Video

"영상에 소리까지 자동으로, 오픈소스로 - 오디오·비디오 동시 생성의 시대"

이스라엘 AI 스타트업 라이트릭스가 공개한 LTX-2.3은 단순히 이미지를 동영상으로 변환하는 수준을 훌쩍 넘어섰습니다. 사진 한 장을 올리면 장면에 어울리는 영상(Visual)과 음향(Audio)을 하나의 모델이 동시에 만들어 주는 '오디오-비디오 파운데이션 모델'입니다. 비유하자면 지금까지는 영상 감독과 음향 감독이 따로 일했다면, 이제는 한 명이 두 역할을 동시에 해내는 겁니다.

구조적으로는 DiT(Diffusion Transformer) 기반에 22B 파라미터 규모이며, 개선된 프롬프트 이해력과 선명한 영상·음향 품질이 특징입니다. 특히 bf16 풀 정밀도 버전 외에도 V램(VRAM)이 부족한 환경을 위한 fp8 경량 버전, 빠른 추론을 위한 Distilled 버전까지 함께 공개됐습니다. ComfyUI 플러그인과 깃허브 코드베이스가 모두 열려 있어, 지금 당장 자신의 워크플로에 연결할 수 있습니다. 오픈 라이선스 기반의 '영상+사운드 원스톱 생성'이라는 점에서 Sora·Runway 같은 상용 서비스를 긴장시키는 오픈소스 대항마로 커뮤니티의 뜨거운 주목을 받고 있습니다.

어디에 활용할 수 있을까요? 광고·홍보 영상 제작, 콘텐츠 크리에이터의 숏폼 제작, 게임 컷신 프로토타이핑, 교육 영상 자동화, 뮤직비디오 초안 제작 등에 바로 활용 가능합니다.

2위: Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled | Text Generation

"클로드의 생각법을 오픈소스에 이식하다 - 지식 증류의 대담한 실험"

이름부터 범상치 않습니다. 알리바바의 Qwen3.5-27B 베이스 모델에 앤트로픽의 클로드 오퍼스 4.6 추론 데이터를 '지식 증류(Knowledge Distillation)' 기법으로 학습시킨 모델입니다. 쉽게 말하면, 값비싼 최강 AI 선생님(Claude Opus)이 문제를 풀어나가는 사고 과정을 저렴한 오픈소스 학생 모델(Qwen3.5-27B)에게 통째로 가르친 겁니다. 진짜 포인트는 '사고 과정의 이식'입니다. 기존 방식이 정답지만 보여줬다면, 지식 증류는 답을 내기까지의 단계적 추론 과정 자체를 학습 데이터로 삼습니다. 덕분에 복잡한 수학 풀이, 논리 추론, 코딩 문제 해결에서 원본 Qwen3.5-27B 대비 눈에 띄는 성능 향상을 보입니다. 무엇보다 아파치 2.0 라이선스로 상업적 이용에 아무 제약이 없다는 점이 큰 강점입니다. 폐쇄형 API에 월 수십만 원을 쓰던 개발자들이 관심을 보이는 이유가 여기 있습니다.

어디에 활용할 수 있을까요? 법률·의료 문서의 단계적 분석, 복잡한 비즈니스 의사결정 보조, 수학·과학 교육 AI 튜터, R&D 아이디어 논리 검증 등에 적합합니다. 아파치 2.0 라이선스로 상업적 활용도 자유롭습니다.

3위: Qwen/Qwen3.5-9B | Image-Text-to-Text

"9B의 작은 몸에 멀티모달 DNA를 - 비용 없이 엣지에서 쓰는 진짜 AI"

알리바바 클라우드 큐원(Qwen) 팀이 2026년 3월 초 공개한 소형 멀티모달 모델입니다. 9B(90억 개) 파라미터라는 작은 몸집이지만, 이미지와 텍스트를 함께 이해하는 '네이티브 멀티모달' 구조로 태어났다는 점이 핵심입니다. 기존 소형 텍스트 모델에 비전 기능을 나중에 붙인 것이 아니라, 처음부터 두 가지를 함께 학습한 것입니다. 컨텍스트 윈도우가 무려 26만2144 토큰(최대 100만 토큰까지 확장 가능)으로, 긴 문서와 이미지를 동시에 처리하는 멀티모달 에이전트 구현에 안성맞춤입니다. Gated Delta Network와 희소 MoE를 결합한 하이브리드 아키텍처 덕분에 추론 속도와 비용 효율이 동급 최고 수준입니다. 아파치 2.0 라이선스에 로컬 실행까지 가능해, 클라우드 비용 부담 없이 엣지 서버나 기업 내부 환경에 바로 배포하려는 개발자들에게 폭발적인 관심을 받고 있습니다.

어디에 활용할 수 있을까요? 스마트폰 온디바이스 AI, 제조 현장 이상 탐지(이미지+데이터 동시 분석), 의료 영상 보조 진단, RAG 없이 대용량 문서·이미지를 직접 처리하는 기업 검색 시스템 등에 적합합니다. 아파치 2.0 라이선스로 상업적 활용도 가능합니다.

AI 응용프로그램(Spaces) 톱3

허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.

1위: LTX 2.3 Distilled | Lightricks

"텍스트 한 줄로 영화 예고편을 - 영상과 소리가 동시에 만들어지다"

텍스트 프롬프트만으로 영화 수준의 영상과 음향을 동시에 생성하는 데모 스페이스입니다. '달빛 아래 파도가 부서지는 해안가, 갈매기 소리와 함께'라고 입력하면 실제로 시각과 청각이 동기화된 영상이 만들어집니다. 별도의 촬영 장비도, 편집 소프트웨어도, 음향 녹음도 필요 없습니다. '원클릭 영상+사운드'가 현실이 된 겁니다. Distilled(경량화) 버전을 사용해 일반 버전보다 훨씬 빠르게 결과물을 확인할 수 있으며, 텍스트 프롬프트뿐 아니라 이미지를 함께 넣어 '이 사진이 움직이면 어떨까?'를 바로 실험해볼 수 있습니다. MCP(도구 연결 프로토콜)도 지원해 다른 에이전트 워크플로와 연결하기도 쉽습니다.

어디에 활용할 수 있을까요? SNS 숏폼 영상 제작, 광고 시안 빠른 프로토타이핑, 유튜브·팟캐스트 인트로 자동화, 1인 미디어 영상 제작 비용 절감 등에 바로 활용 가능합니다.

2위: OmniLottie | OmniLottie (CVPR 2026 채택)

"말 한 마디로 움직이는 아이콘을 - UI 애니메이션 자동 생성의 문이 열리다"

텍스트, 이미지, 영상으로부터 '롯티(Lottie)' 형식의 벡터 애니메이션을 자동 생성하는 스페이스입니다. 롯티란 앱이나 웹사이트에서 흔히 쓰이는 가벼운 JSON 기반의 움직이는 아이콘·일러스트 형식입니다. 카카오톡·에어비앤비·스포티파이에서 버튼을 눌렀을 때 튀어오르는 귀여운 애니메이션, 로딩 중에 빙글빙글 도는 이모티콘이 바로 롯티 형식입니다. 이걸 만들려면 보통 전문 모션 디자이너가 애프터 이펙트(After Effects)로 며칠씩 작업해야 했습니다. 옴니롯티(OmniLottie)는 '빨간 공이 통통 튀다가 사라지는 애니메이션'이라고 입력하면 실제 앱에 바로 넣을 수 있는 JSON 파일을 만들어 줍니다. Qwen2.5-VL을 기반으로 200만 개의 롯티 데이터셋으로 학습했으며, 텍스트·이미지·영상 세 가지 입력 방식을 모두 지원하는 최초의 멀티모달 롯티 생성 모델입니다.

CVPR 2026 채택 논문이며, 아파치 2.0 라이선스로 공개됐습니다. CVPR은 컴퓨터 비전 및 패턴 인식 학회(Conference on Computer Vision and Pattern Recognition)로, AI·컴퓨터 비전 분야에서 전 세계 최고 권위의 학술대회인데요. 학술계의 칸 영화제라 생각하시면 됩니다. 매년 전 세계에서 수만 편의 논문이 제출되는데, 채택률이 보통 20~25% 수준으로 낮습니다. 즉 제출된 논문 4편 중 3편은 떨어지는데, 옴니롯티의 경우 2026년 2월에 채택 통보를 받고, 3월에 바로 허깅페이스 데모를 공개했습니다. 논문이 학회 발표 전에 이미 실제로 쓸 수 있는 오픈소스 도구로 나왔다는 뜻입니다. 학계와 현장의 속도 차이가 사실상 없어진 것입니다. 정리하면, 학술계 칸 영화제인 CVPR 2026에 채택된 논문이 발표도 되기 전에 이미 무료로 쓸 수 있게 됐습니다.

어디에 활용할 수 있을까요? 모바일 앱 UI/UX 디자인 자동화, 웹사이트 인터랙션 요소 빠른 제작, 브랜드 로고 모션 작업, 게임 이펙트 프로토타이핑 등에 활용할 수 있습니다.

3위: Qwen3.5 0.8B WebGPU | webml-community

"서버도 설치도 없이, 브라우저 탭 하나로 — 눈 달린 AI가 내 책상을 본다"

웹캠을 켜면 AI가 실시간으로 화면 속 상황을 말로 설명해 주는 스페이스입니다. '지금 내 책상 위에 뭐가 있어?'라고 물어보면 카메라 화면을 보고 바로 답합니다. 여기서 놀라운 점은 이 모든 일이 클라우드 서버 없이, 브라우저 안에서 직접 일어난다는 것입니다.

비결은 웹GPU 기술입니다. 사용자의 그래픽카드를 브라우저에서 직접 활용해 AI 추론을 로컬에서 처리하는 방식입니다. 0.8B(8억 개 파라미터)라는 초소형 모델이 회원가입도, 인터넷 연결도, 별도 설치도 없이 작동합니다. 덕분에 데이터가 외부 서버에 단 한 바이트도 나가지 않아 개인정보 보호 측면에서 강력한 강점을 가집니다. Qwen3.5-9B와 같은 네이티브 멀티모달 DNA를 물려받아 이미지 이해 능력도 상당한 수준입니다.

어디에 활용할 수 있을까요? 시각 장애인 보조 도구, 산업 현장 실시간 안전 점검, 교육용 인터랙티브 시연, 개인정보 보호가 필요한 스마트홈·의료 응용 등에 적합합니다.

시사점 & 인사이트

이번 주 트렌드를 한마디로 요약하면 '작아지고, 들리고, 움직인다'입니다. AI는 더 이상 클라우드 데이터 센터 안에만 있지 않습니다.

첫째, '영상+소리' 동시 생성은 콘텐츠 제작 비용을 무너뜨릴 것입니다.

LTX-2.3의 등장은 단순한 기술 업데이트가 아닙니다. 지금까지 영상 제작에는 촬영·편집·효과음 작업이 각각 필요했습니다. 오디오-비디오 통합 생성 모델이 오픈소스로 공개되면, 1인 크리에이터와 소규모 제작사가 대형 스튜디오와 경쟁할 수 있는 환경이 열립니다. 광고·홍보·미디어 산업의 진입 장벽이 실질적으로 낮아지는 변곡점입니다.

둘째, 추론 능력의 '민주화'가 빠르게 진행 중입니다.

클로드 오퍼스의 추론 로직을 오픈소스 모델에 이식한 시도는 AI 생태계의 무게추를 바꾸고 있습니다. 기업들은 GPT-4급 추론 능력을 자체 서버에서 구현하기 위해 큰 비용을 치러왔습니다. 지식 증류 기술이 확산되면서 '좋은 AI는 비싸다'는 공식이 서서히 무너지고 있습니다. 스타트업과 연구기관에게는 반가운 소식이지만, 상용 AI 서비스 사업자에게는 상당한 위협이 될 수 있습니다.

셋째, '클라우드 없는 AI'가 현실이 되고 있습니다.

Qwen3.5 0.8B WebGPU 스페이스는 AI가 서버 없이 브라우저에서 실시간으로 작동할 수 있음을 증명합니다. 의료·금융·국방 등 데이터를 외부로 보내기 어려운 분야에서 온디바이스·엣지 AI는 단순한 선택지가 아닌 필수 조건입니다. 한국 기업들이 유독 강점을 보이는 반도체·스마트 디바이스 분야에서 이 트렌드를 전략적으로 활용할 여지가 큽니다.

넷째, '움직이는 UI'도 이제 AI가 만들어 줍니다.

옴니롯티가 보여준 것처럼 모션 디자인 영역도 AI 자동화의 물결을 피할 수 없게 됐습니다. 텍스트 한 줄로 앱 아이콘 애니메이션을 뚝딱 만들어 내는 시대는 이미 시작됐습니다. UI/UX 디자이너의 역할이 '만드는 사람'에서 '방향을 정하고 검수하는 사람'으로 빠르게 이동하고 있음을 보여주는 장면입니다.

토막 상식: 지식 증류(Knowledge Distillation) "선생님의 문제 푸는 방식을 학생에게 가르치는 기법"

지식 증류(Knowledge Distillation)란 큰 AI 모델이 문제를 푸는 방식을 작은 AI 모델에게 가르치는 학습 기법입니다. 여기서 핵심은 '최종 답'이 아니라 '사고 과정'을 가르친다는 점입니다. 예를 들어 수학 문제를 풀 때 선생님이 "답은 42"라고만 알려주는 게 아니라, "먼저 이렇게 식을 세우고, 그 다음 이 부분을 이렇게 전개하면…" 하는 풀이 과정 전체를 보여주는 것입니다. 학생 모델은 그 과정을 통째로 흡수하기 때문에, 덩치는 작아도 생각하는 방식만큼은 선생님을 닮아갑니다.

실제 산업적 의미는 꽤 큽니다. 지금까지 기업들은 GPT-4나 클로드 오퍼스급의 추론 능력을 쓰려면 비싼 API 비용을 매달 지불해야 했습니다. 그런데 지식 증류로 탄생한 모델은 그 사고 패턴을 이식받은 채 오픈소스로 풀리기 때문에, 자체 서버에서 무료로 돌릴 수 있습니다. 마치 유명 셰프가 수십 년간 쌓은 요리 감각을 제자에게 전수했더니, 그 제자가 레시피를 무료 공개해버린 것과 같습니다. '좋은 AI는 비싸다'는 공식이 흔들리는 이유가 바로 여기에 있습니다.

마무리

이번 주 허깅페이스는 '보이지 않던 소리가 생기고, 가르칠 수 없던 사고력이 이식되고, 닿을 수 없던 AI가 손안으로 들어온' 한 주였습니다. LTX-2.3이 영상과 소리를 한 번에 만들어 내는 동안 누군가는 클로드 오퍼스의 추론 방식을 오픈소스에 조용히 담았고, 또 다른 누군가는 0.8B짜리 모델을 브라우저 탭 안에 세워 웹캠 앞의 세상을 설명하게 했습니다.

중요한 건 이 기술을 어떻게 활용할 것인가입니다. 다음주에는 또 어떤 혁신이 우리를 기다리고 있을까요? AI는 빠르게 변합니다. 그렇기에 변화를 읽는 눈은 더 빠르게 키워야 합니다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

﻿소리까지 만드는 AI, 생각까지 베끼는 AI [﻿정원훈의 AI 트렌드]

소리까지 만드는 AI, 생각까지 베끼는 AI [정원훈의 AI 트렌드]