'카지노' 30대 최민식 목소리의 비밀...AI로 소리까지 젊어진다

김유경 기자 2023. 1. 1. 11:02
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[테크업팩토리]시공간을 뛰어넘는 'AI 보이스 디에이징 기술'

[편집자주] '테크업팩토리'는 스타트업과 투자업계에서 가장 '핫'한 미래유망기술을 알아보는 코너입니다. 우리의 일상과 산업의 지형을 바꿀 미래유망기술의 연구개발 동향과 상용화 시점, 성장 가능성 등을 짚어봅니다.

'카지노'의 차무식으로 출연한 최민식 배우(왼쪽)와 수퍼톤의 'AI 보이스 디에이징'으로 재현한 젊은 시절(오른쪽) 회상장면. /사진제공=디즈니+

"이거 언제 다 쓰냐? 야, 그냥 폼나게 하번 쓰자!"

지난달 21일 개봉한 디즈니+ 드라마 '카지노'에서 주인공 차무식(최민식 분)이 돈다발 앞에서 한 말이다. 최민식이 얘기했고 최민식의 목소리인데 진짜는 아니다. 인공지능(AI)이 재현한 30대 최민식의 목소리다.

'카지노'에서 차무식 캐릭터는 고교시절 징역살이부터 카지노의 왕이 되기까지 파란만장한 삶을 살았던 인물이다. 리얼리티를 중시하는 강윤성 감독은 극초반 60세 최민식의 목소리를 안정적인 30대 목소리로 재현하기 위해 수퍼톤의 'AI 보이스 디에이징' 기술을 적용했다.

AI 보이스 디에이징 기술은 어떤 목소리라도 나이와 성별에 맞게 자유롭게 변환해준다. 할아버지 목소리를 어린아이 목소리로 변환할 수 있을 뿐만 아니라 성별까지 바꿀 수 있다. 유창한 외국어 연기도 가능하다.

수퍼톤은 AI 보이스 디에이징 기술로 최민식이 20~30년전 연기했던 서울의 달(1994년 방송), 파이란(2001년 개봉), 올드보이(2003년 개봉) 등의 목소리를 분석, 연령별 목소리 샘플을 만들었다.

카지노 현장 녹음본에 이 샘플을 적용하는 방식으로 30대 최민식의 목소리를 구현한 것이다. 여기에 각 장면에 맞게 대사를 자연스럽게 녹여내는 보정 작업을 더해 젊은 시절 목소리를 완성했다.

이승복 수퍼톤 콘텐츠사업본부장은 "30대에는 특유의 패기라든지 명료한 발성 등의 특징이 있다"며 "AI 보이스 디에이징 기술로 구현한 다양한 버전의 젊은 최민식 배우의 보이스 샘플을 준비했고 이중에서 자연스러운 연기톤과 감정선이 가장 잘 유지되는 샘플을 채택해 작업했다"고 밝혔다.

디즈니+ 드라마 '카지노' 4화 예고편 캡쳐
극중 차무식 목소리의 스펙트로그램 분석. 목소리 구성요소의 주파수가 흩어져있는 60대의 목소리가 수퍼톤의 'AI 보이스 디에이징'으로 보다 안정적인 30대의 목소리로 재구성 되었다./사진제공=수퍼톤
네이버 '엄마의 목소리' 캠페인…AI보이스 제작 이벤트
'엄마의 목소리를 부탁해' 캠페인 페이지 캡쳐
AI 기술이 고도화하면서 단순히 텍스트를 음성으로 변환해주는 것을 넘어 시공간을 뛰어넘는 목소리를 만드는 수준까지 발전했다. 이미 이같은 AI 보이스 기술들은 우리 실생활에 깊숙이 파고들고 있다.

네이버의 '엄마의 목소리를 부탁해' 캠페인이 대표적이다. 네이버는 최근 AI 음성합성 기술을 알리기 위해 AI 보이스 제작에 참여할 100명의 사연을 공모했다. 자신의 목소리를 가족이 원할 때 언제든지 들을 수 있는 AI 보이스를 제작해주는 이벤트다. 이벤트에 선정된 100명이 1000문장을 녹음해 올리면 내년 2월까지 AI 보이스를 완성, 클로바더빙 서비스에 공개되며 누구나 무료로 이용할 수 있다.

네이버의 이같은 가족캠페인 공모는 AI 보이스에 대한 거부감을 줄여주고 있다. 한 이벤트 참여자는 "그동안 바쁜 일상에 지쳐 남편과 아이들에게 예쁜 말을 많이 해주지 못했는데 AI 보이스 제작 참여로 주어진 샘플 문장을 읽으며 따뜻한 아내와 엄마가 된 것 같았다"며 "특히 젊은 시절 내 목소리를 남길 수 있다는 생각에 참여를 결정했다"고 전했다.

온에어스튜디오에서도 무료로 음성·영상 콘텐츠를 제작해볼 수 있다. 가상모델을 선택한 후 텍스트만 입력하면 가상모델이 이야기하는 동영상 콘텐츠를 다운로드 할 수 있다. 온에어스튜디오는 이를 위해 19개의 AI 보이스 샘플을 만들었다. 얼굴을 공개하고 싶지 않은 유튜버, 회사 홍보물 제작에 유용하다는 게 회사측 설명이다.

타입캐스트는 감정 조절이 가능한 AI 보이스를 제공하는 게 특징이다. 슬픈 목소리, 기쁜 목소리, 화난 목소리로 읽어주고 말 빠르기도 선택할 수 있다. 300여개의 AI 캐릭터가 있고 매주 새로운 캐릭터가 추가되고 있다. 다만 무료버전은 매우 제한적으로만 제공한다.

딥브레인AI는 '리메모리(Re;memory)' 서비스로 유명하다. 사람이 300개 문장을 읽는 영상을 학습한 AI가 그 사람의 목소리와 분위기, 톤, 표정 등 음성과 영상을 한번에 학습해 대화까지 가능하도록 구현한다. '그동안 잘지냈지'라는 질문에 "잘 지내지 못했다"고 답하면 "왜 무슨일이 있었어?"라고 되묻는 식이다.

AI 휴먼 제작을 위한 학습용 스크립트를 읽는 모습./사진제공=딥브레인AI


[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

김유경 기자 yunew@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?