“SF 단편 영화 제작에 일주일·6만원”… 바이두 AI 영상 혁신
이미지 한 장, 설명 한 줄로 실시간 생성
업계 최초 다인 음성·환경음 융합 생성
바이두의 영상 생성 인공지능(AI)은 모호한 아이디어만 있어도 이미지 한 장과 프롬프트만 주면 바로 사실적인 영상을 만들어낸다. 여러 캐릭터의 대화에 환경음까지 통합적으로 생성한다. 장면 간의 융합은 놀라울 정도로 뛰어나다.
넷플릭스 오리지널 시리즈 ‘삼체’의 시각효과(VFX)를 담당했던 야오치(姚骐) 시각효과 감독은 지난 21일 오후(현지시각) 베이징 서북부 하이뎬(海淀)구 바이두과기원에서 열린 바이두 ‘2025 AI 대회’에서 이렇게 말했다.
그는 AI로 단편영화를 만든 경험을 공유하면서 “실사 촬영에는 제약이 많으며, 늘 비용과 안전 문제가 따라온다. 로케이션을 찾는 일도 어렵고, 하루 출연료만 100만위안에 달하는 유명배우 출연료에 제작진, 장비, 숙식 비용도 막대하다”며 “영화 제작 주기도 너무 길다. 짧게는 1~2년, 길게는 5~6년이 걸린다. 후반작업의 경우 할리우드에서는 한 장면에 수십만~수백만 달러가 든다”고 말했다.
그러면서 “그런데 우리가 최근 바이두의 AI로 만든 단편영화는 완성하는 데 단 1주일, 300위안(약 6만원)밖에 들지 않았다”고 강조했다.
중국 최대 검색엔진이자 AI 기업인 바이두는 이날 행사장에서 멀티모달 영상 생성 모델인 ‘뮤즈스티머(百度蒸汽机·MuseSteamer)’를 공개했다. 뮤즈스티머는 세계 최초의 중국어 음성·영상 일체화 I2V 생성 모델로, 단 한 장의 이미지와 간단만 프롬프트만 입력하면 영상을 생성해낸다.
뮤즈스티머는 업계 최초로 다인(多人) 음성과 영상을 한 번에 생성해낼 수 있는 것이 특징이다. 정적 속에서 한 인물씩 대사를 주고 받는 것이 아니라, 사실적인 환경음과 여러 인물의 대사를 자연스럽게 겹쳐 어우러지게 만들 수 있다. 중국어 입모양 싱크는 물론, 다양한 각도의 카메라 워크도 선보인다.
최근 소셜미디어(SNS) 등에서 유행하는 AI 영상을 보면, 벌레 우는 소리나 도시 소음 등 자연스러운 배경 소리 없이 인물의 대사만 단조롭게 이어지는 경우가 많다. 이와 달리 뮤즈스티머는 영상의 배경과 어울리는 환경음을 조성하고 대사와 자연스럽게 어우러지게 해 장면이 뚝뚝 끊어지는 느낌을 최소화했다.

발표에 나선 류린(刘林) 바이두 상업 연구개발(R&D) 총괄은 “우리는 영상과 음향의 정밀한 동기화로 인물의 연기, 감정, 목소리, 표정을 고도로 입체적으로 표현할 수 있게 되었다”며 “뮤즈스티머는 여러 캐릭터의 정체성과 감정, 상호작용의 논리를 큰 틀로 구성한 뒤, 이를 기반으로 이야기의 일관성과 사실감을 확보한다”고 설명했다.
이어 “셋째로, 우리는 초(超)실감 음색을 도입해, 목소리가 단순히 성별과 연령에 제한되지 않고 장면의 분위기와 감정에 따라 조율돼 자연스럽고 조화로운 시청각 경험을 제공한다”며 “마지막으로, 우리는 중국어 기반 최적화를 통해 발음의 리듬과 문맥, 입 모양과 표정, 몸짓까지 맞춰 중국어 환경에서 한층 더 강력한 성능을 발휘한다”고 말했다.
그에 따르면 뮤즈스티머는 영상 제작 비용 구조의 근본적 변화를 추구한다. 영화를 예로 들면, 배우 출연료, 장소·장비 비용, 후반부 더빙과 특수효과 작업 등을 AI로 대체하는 것이다. 넷플릭스 시리즈 ‘삼체’를 비롯해 할리우드 영화 ‘매트릭스3’, ‘트랜스포머’ 등 작품의 VFX에 참여한 야오 감독은 뮤즈스티머로 제작한 SF 단편 ‘귀환(归途)’을 공개했다. 이 작품은 40여 개의 장면을 120개 이상의 AI 영상 클립으로 제작했으며, 제작비는 330.6위안(약 6만원)에 불과했다.
인물의 경우 피부 표현과 눈동자 등에서 AI인 것이 티가 났지만, 어색함 없는 표정 연기와 목소리 톤이 인상적이었다. 정적 없이 이어지는 각종 환경음과 다양한 각도의 카메라 워크는 그간 여러 영화에서 본 것처럼 익숙했고, 공룡 캐릭터와 각종 배경 그림은 영화 또는 실사급 그래픽 게임에서 본듯 자연스러웠다. 장편 영화 전체를 AI로 만들긴 어려워도, 컴퓨터그래픽(CG) 영역에서 보조적 제작 도구로서의 가능성은 충분해 보였다.
류 총괄은 “AI가 우리의 손을 해방시켜, 창작자는 오로지 아이디어와 창의성에 집중할 수 있게 된 것”이라며 “이것이야말로 영화 제작의 길을 더 넓고 멀리 열어주는 혁신”이라고 말했다.
사용자는 바이두 검색창에 ‘百度蒸汽机(바이두 뮤즈스티머)’를 입력하거나 ‘후이샹(绘想)’ 플랫폼에 접속해 체험할 수 있다. 기업 고객은 첸판(千帆) 플랫폼을 통해 고성능 서비스를 이용할 수 있다. 가격은 단계별 회원제를 통해 업계 평균의 70% 수준으로 책정됐다. 720p 해상도 기준 5초 분량 무성(無聲) 영상 생성에 1위안(업계 평균 2위안), 음향과 대사가 포함된 5초 분량 유성(有聲) 영상은 2.5위안(업계 평균 3.5위안)이다. 최초 5개 영상은 무료로 제공되고, 회원은 매달 5초 분량 영상 15개를 무료로 생성할 수 있는 크레딧을 받을 수 있다.
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- [비즈톡톡] “주 35시간 일하고 영업이익 30% 성과급 달라”... 도 넘은 LG유플러스 노조의 무리수
- [세종 인사이드아웃] 공직사회에 “업무 힘들면 다주택자 됩시다”는 말 돈다는데
- [단독] 롯데건설, 위기에 희망퇴직 받는데 대표이사 연봉 올린다
- 1분기 적자에도 주가 4배...주성엔지니어링 ‘시차’ 효과
- 돼지고기 가격 계속 오르는데… 납품 담합·할인 압박에 유통업계 이중고
- 500억원 거래해도 수수료 0원… 메리츠·신한·토스 ‘제로 전쟁’ 재점화
- 스페이스X 100분의 1 가격에 살 기회 있었다는데... “‘화성 정복’ 단어, 황당해 보였다”
- 10년간 軍 떠난 숙련 조종사 900명 육박… 70%가 대한항공行
- [법조 인사이드] “혼인 경력·연봉·학력까지 털렸다”… 듀오 피해자들 ‘50만원 소송’ 나섰다
- [시승기] 슈퍼카 뼈대에 세단 같은 안정감… 폴크스바겐 ‘투아렉’ 파이널 에디션