[VC, AI와 만나다] 스페인어로 “내가 왕이 될 상인가” 묻는 수양대군…입모양·목소리도 감쪽같이 바꾼다

AI 기반 더빙 솔루션 만든 허드슨AI
에이벤처스·신한벤처 등이 33억 투자
더빙과 입모양 일치시켜 자연스러운 영상 구현

#칠흑 같은 밤, 곤룡포를 입은 채 검을 쥔 수양대군(배우 이정재). 공포에 떨고 있는 관상가 내경(송강호)을 향해 묻는다. “뗑고 로스뜨로 데 레이?(¿TENGO ROSTRO DE REY?)”. “내가 왕이 될 상이냐”는 질문을 스페인어로 번역한 것이다. 이번에는 일본어로 묻는다. “와타시가 오오니 나루 닌소오카(私が王になる人相か)？” 중국어, 프랑스어로도 묻는다. 모두 완벽한 이정재의 목소리로 말이다. 입 모양까지 감쪽같다.

영화 '관상'의 한 장면. 수양대군 역을 맡은 배우 이정재의 모습. /네이버 영화(배급사 쇼박스)

2013년작 영화 ‘관상’의 명대사를 다국어로 번역, 더빙하는 상황을 가정해 본 것이다. 저작권 문제 때문에 가상의 상황을 예로 들었을 뿐, 절대 상상 속에서만 가능한 일이 아니다. 국내 스타트업 허드슨AI가 보유 중인 기술력으로 구현할 수 있는 일이다.

허드슨AI는 인공지능(AI) 엔진을 기반으로 더빙을 제작해 립싱크(입술 움직임과 음성을 일치시키는 것)까지 완성해 내는 업체다. 배우가 자기 목소리 그대로 8개 국어의 대사를 하는 게 가능하다. 성우의 목소리가 배우의 입 모양과 따로 노는 이질감도 없다.

지난달 21일, 서울 역삼동 오렌지플래닛에서 허드슨AI의 신현진 대표·윤재섭 최고기술책임자(CTO)를 만났다. 신 대표는 삼성SDS 멀티캠퍼스에 다니다 서울대 융합과학기술대학원에서 AI를 공부하고, LG에너지솔루션을 거쳐 창업가의 길로 들어섰다. 윤 CTO는 산업공학과 석·박사 과정을 거치며 머신러닝을 연구한 공학도다. AI 기반 영상 처리 전문가다.

허드슨AI는 최근 벤처캐피털(VC) 에이벤처스·신한벤처투자·스마일게이트로부터 33억원을 투자받았다. 시리즈A의 전 단계인 프리(pre)A 투자다. 이날 인터뷰에는 에이벤처스 김태규 부사장과 신혁 심사역이 함께했다.

◇ 번역문 길이까지 AI로 맞춰야… 가이드 성우 개입 최소화하는 게 목표

허드슨AI의 머신러닝 기반 더빙과 기존 더빙은 무엇이 다를까.

기존 더빙은 크게 3단계로 나뉜다. 먼저 대본을 다른 언어로 번역한 뒤, 성우가 번역한 대본을 모두 읽어 오디오 파일을 만든다. 그다음으로 사운드 엔지니어가 영상에 오디오를 믹싱한다. ‘우리말 녹음’ 꼬리표를 달고 나오는 영화나 애니메이션이 대부분 이렇게 만들어진다.

“100분짜리 영화 한 편에 80~90명의 등장인물이 나온다고 치면, 보통 30여명의 프로 성우들을 고용해 더빙을 합니다. 하나의 언어에 대해서만 그래요. 이걸 8개 국어로 번역해 더빙한다면 굉장히 많은 노동력과 시간, 비용이 들어가게 되죠(신현진 대표).”

허드슨AI의 더빙 과정은 이렇다. 먼저 챗GPT4를 튜닝해 자체 모델을 만들어 원고를 번역한다. 허드슨AI의 강점은 이 첫 단계에서부터 발휘된다. 원어 대사의 발화 시간을 고려해 번역문의 길이를 조정하는 것이다. 예를 들어 한국어 대사의 길이가 20초에 불과한데 영어로 번역했더니 30초짜리 발화문이 나왔다고 가정해 보자. 더빙 영화 속 배우는 10초 동안 입을 다문 채 말하는 복화술 묘기를 선보일 수밖에 없다. 이런 현상을 막기 위해 처음부터 서로 다른 두 언어의 발화 길이를 맞추며 번역한다는 것이다.

다음 단계는 보이스 프로덕션이다. 가이드 성우 2명(남, 녀)이 번역된 대본 전체를 읽는다. 수십명의 성우를 고용하는 기존 더빙과 달리 남자 성우 1명이 아버지·아들·삼촌·옆집 아저씨 역할을 모두 소화하고, 여자 성우 1명이 할머니·어머니·딸 등 여성 캐릭터를 모두 연기한다. 배우의 감정 표현과 호흡 등 비언어적 요소들까지 제대로 살리려면 아직은 이 과정이 필요하다.

가이드 성우들의 음성은 보이스 컨버전 기술을 통해 배우의 목소리로 변환된다. 마지막으로 AI 기반 립싱크 기술을 활용해 영상 속 배우의 입 모양까지 바꾸면 더빙이 완성된다. 립싱크를 위해 500시간 분량의 발화 영상을 수집, 학습했다. 발화하는 사람의 얼굴(정확히는 입술 모양)과 음성을 한 쌍으로 학습하기 때문에 어떤 말을 할 때 입 모양이 어떻게 변하는지 정확히 알 수 있다.

허드슨AI는 현재 보이스 프로덕션에 투입되는 성우 2명의 노동력조차 필요 없도록 완전 자동화하겠다는 목표를 갖고 있다. 투자사도 이 부분에 대한 기대가 크다. 김태규 에이벤처스 부사장은 “우리도 투자를 심사하며 ‘가이드 성우의 도움을 받는 건 완전한 AI가 아니지 않느냐’는 질문을 했었다”며 “다만 아직은 데이터를 학습해 나가는 과정이고, 전통적 방식의 더빙에서 30명이나 필요했던 성우를 2명으로 줄였다는 데 큰 의의가 있다”고 말했다.

신 대표는 “가이드 성우 없이도 더빙할 수 있는 TTS(텍스트를 음성으로 변환하는 것) 기술을 고도화하고 있다”고 말했다. TTS에서 한 발짝 더 나아간 ‘보이스 클로닝(음성 복제)’이다. 예를 들어 AI에 내 음성을 학습시킨 뒤 텍스트를 입력하면, 컴퓨터가 내 목소리로 그 문장을 읽어준다. 내 목소리 특유의 떨림, 높낮이, 길이 등의 정보를 학습해야만 한다. 특히 더빙할 때는 영상 속 맥락뿐 아니라 번역 시 달라지는 어순과 성조까지 신경 써야 해 더 까다롭다. TTS 기술만으로도 이를 완벽하게 구현하는 게 허드슨AI의 궁극적 목표다.

허드슨AI의 창업자들과 투자자들. 왼쪽부터 에이벤처스 신혁 심사역과 김태규 부사장, 허드슨AI 신현진 대표와 윤재섭 CTO. /그래픽=손민균

◇ SKB·CJ ENM이 주요 고객사… “K콘텐츠의 글로벌화”

허드슨AI는 더빙 시장이 계속 확대될 것으로 기대한다. 열에 아홉은 자막을 보는 한국인들과 달리, 남미와 유럽에서는 더빙의 선호도가 절대적으로 높다. 일부 콘텐츠의 경우 더빙판이 없으면 남미 국가에 수출하기도 어렵다는 게 신 대표의 설명이다.

영화 제작사 및 배급사, 넷플릭스 같은 글로벌 온라인동영상서비스(OTT) 플랫폼뿐 아니라 유튜브와 틱톡 크리에이터들도 고객이 될 수 있다. 전세계에서 가장 많은 구독자를 보유한 유튜버 ‘미스터비스트(MrBeast)’는 다국어 더빙 버전을 제공하고 있는데, 더빙 서비스 이후 구독자가 2배 이상 증가했다. 다만 전통적 방식의 더빙을 이용하고 있어 말과 입 모양이 맞지 않는 한계가 있다.

투자사도 허드슨AI의 서비스 확장 가능성에 주목했다. 김 부사장은 “W스타트업 어워즈(여성창업경진대회)에서 처음 허드슨AI를 알게 됐는데, 더빙을 통해 K-콘텐츠를 글로벌화할 수 있다는 점에 끌렸다”며 “타깃이 명확하고 국내엔 아직 경쟁자가 없다는 게 강점”이라고 말했다.

허드슨AI는 현재 SK브로드밴드, CJ ENM을 주요 고객사로 확보하고 있다. 엔터테인먼트 및 콘텐츠 제작사들과도 협업을 논의 중이다.

이 기사에 대해 어떻게 생각하시나요?

조선비즈에서 직접 확인하세요. 해당 언론사로 이동합니다.

경제

[VC, AI와 만나다] 스페인어로 “내가 왕이 될 상인가” 묻는 수양대군…입모양·목소리도 감쪽같이 바꾼다