"최민식도 흡족"…'마스크걸'·'카지노' 속 목소리 만든 수퍼톤 [인터뷰]①

최희재 2023. 10. 7. 09:00
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

음성 AI 회사 수퍼톤, K-콘텐츠와의 시너지
다화자 음성 모핑 기술로 '마스크걸' 나나·이한별 음성 조합
'카지노' 최민식 30대 목소리 재현
이교구 대표(왼쪽)와 허훈 최고기술책임자(사진=수퍼톤)
[이데일리 스타in 최희재 기자] “수퍼톤은 보이스 디자인 기술을 보유하고 있는 음성 AI 회사입니다. 가장 큰 강점은 다양한 예술가들의 창작 의도에 부합하게 모든 대응이 가능하다는 것이죠.”

최근 서울 강남구 수퍼톤 본사에서 만난 하이브IM 인공지능(AI) 오디오 기업 수퍼톤의 이교구 대표와 허훈 최고기술책임자(CTO)가 수퍼톤의 기술에 대해 이같이 설명했다.

2020년 3월 수퍼톤을 창업한 이교구 대표는 서울대학교 교수로 겸직 중이며 약 15년간 연구실을 운영 중이다. 연구실 출신인 허훈 CTO와 함께 인공지능과 오디오 신호처리, 음성·음악에 적용하는 기술을 연구하고 있다.

이교구 대표(사진=수퍼톤)
이 대표는 수퍼톤을 소개하며 “기술자, 개발자, 연구자 입장에서 창작자들이 훨씬 더 다채롭고 풍성한, 상상으로만 가능했던 걸 현실화 시키는 기술로 활용할 수 있지 않을까 하는 목표로 설립했다”고 전했다.

허 CTO는 “필요 기술을 조합해서 창작자들의 의도와 연출 방향을 달성하기 위해서 다양한 방법들을 제공해왔다”며 수퍼톤이 보유한 기술의 구성과 특징을 전했다.

수퍼톤은 4개의 목소리 기본 요소(음색, 발음, 음고, 강세)를 크리에이티브한 의도를 가진 다양한 방식으로 조합하고 제어할 수 있는 기술을 보유하고 있다. 4가지의 음성 요소로 세상의 모든 목소리를 표현할 수 있다는 것. 음색을 변환해 남녀노소를 바꾸는 연출은 물론, 배우의 목소리를 유지한 채로 다양한 언어로 표현하는 것이 가능하다.

허훈 최고기술책임자(사진=CTO)
허 CTO는 “이 기술이 미디어로도 알려진 ‘마스크걸’의 대표 기술로서 활용된 바 있다. 단순히 특정 목소리로 변환하는 게 아니라 좀 더 세밀한 연출을 위해서 감독님이 요구한 나나·이한결 배우의 목소리를 다양한 비율로 조합하는 기술까지 사용됐다. 더 고도화된 기술이 적용됐다”고 설명했다.

‘마스크걸’ 주인공 김모미의 부캐릭터 BJ 캐릭터는 나나, 이한별의 음성 톤을 분석해 새로운 음성으로 탄생됐다. 두 배우의 특성이 모두 엿보이는 목소리는 전 세계 시청자 사이에서 화제를 모았다.

허 CTO는 “수퍼톤은 보이스 디자인 기술을 보유하고 있는 음성 AI 회사다. 가장 큰 강점은 다양한 예술가들의 창작 의도에 부합하게 모든 대응이 가능하다는 것”이라며 “‘마스크걸’에서 적용했던 것처럼 어떤 특정한 목적의 조합을 다양한 비율로 디자인할 수 있다”고 말했다.

‘마스크걸’ 포스터(사진=넷플릭스)
‘마스크걸’ 작업 비하인드를 묻자 “감독님이 직접 오셔서 디렉팅도 하셨다. 단순히 두 배우의 목소리를 섞은 게 아니라 그 과정이 훨씬 더 복잡했다. 분해한 목소리에서 일부는 어떤 배우 걸 가져올지 또 몇 대 몇으로 할지를 고민했다”며 “어떤 커뮤니티에서 목소리가 섞인 것 같다는 걸 찾아낸 시청자분들이 있더라. ‘이걸 정말 알아주시는 분들이 있구나’ 감동이었다. 시청자들이 눈도 높고 귀도 높다고 느꼈다”고 뿌듯함을 전했다.

‘마스크걸’ 뿐 아니라 디즈니+ ‘카지노’에서도 수퍼톤의 기술을 찾아볼 수 있었다. ‘카지노’에서는 최민식의 30대 시절 목소리를 구현해냈다. 허 CTO는 “나이와 성별 (조합)은 디즈니+ ‘카지노’에서 적용된 기술이기도 하다”며 “다양한 목소리를 녹음을 하는 게 아니라 연속적인 값으로 다양한 목소리를 조합할 수 있다”고 전했다.

최민식(사진=이데일리DB)
그는 작업 계기에 대해 “최민식 배우가 극중에서 30대 역할로 나오는 장면이 있었다. 비주얼은 다른 업체를 통해서 해결했던 상황인데 목소리가 매칭이 안 됐다. 30대의 비주얼과 오디오가 같이 가야 하는데 저희가 해결할 수 있겠다고 봤다”고 설명했다.

이어 “당시 저희가 보이스 디자인 연구를 하고 있었고 개발이 어느 정도 되어서 성과가 나오고 있었다. 전 세계 수만 명의 목소리에 나이 값과 성별을 레이블링한 데이터가 있다. 나이와 성별에 따른 패턴에 따라 음색이 어떻게 바뀌는지를 회귀 모델을 만들 수가 있었다”고 덧붙였다.

어떤 과정이 필요했을까. 수퍼톤은 배우의 목소리를 넣고 나이와 성별을 맞추는 모델을 만들었다. 허 CTO는 “수많은 사람들의 목소리 통계값을 분석해서 작업을 했다. 최민식 배우가 출연했던 영화 ‘파이란’(2001), 드라마 ‘서울의 달’(1994)을 보면서 분석을 했고 장면에 어울리는 음향 연출을 통해서 스튜디오 팀과 함께 작업을 했다”고 설명했다.

또 “최민식 배우가 굉장히 흡족해 하셨다고 들었다”는 비하인드를 전해 눈길을 끌었다.

최희재 (jupiter@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?