[비바100] “복제 넘어 연기까지”⋯AI 음성 합성, 콘텐츠 판도 바꾼다

[테크리포트] 구글·일레븐랩스·이스트소프트가 말하는 ‘AI 음성’ 시대

1877년 스톡홀름에 전화기가 처음 등장했을 때, 사람들은 낯선 문명 앞에 두려움을 느꼈다. 얇은 전선에서 목소리가 흘러나오자, 어떤 이들은 전화기가 악령을 부른다고 믿기도 했다. 오늘날에는 재밌는 일화로 전해지지만, 당시 전화기는 그만큼 혁신적인 발명품이었다. 그로부터 한 세기가 훌쩍 지난 지금, 또다른 혁신적인 기술이 일상으로 스며들고 있다. 텍스트를 음성으로 변환하고 특정인의 목소리를 그대로 복제하는 ‘인공지능(AI) 음성 합성 기술’이다.

음성 합성 기술은 빠르게 진화하고 있다. 텍스트를 입력하면 음성으로 변환해주는 ‘TTS(Text to Speech)’ 기술은 원래 시각 장애나 난독증이 있는 사용자를 위한 보조 기술로 출발했다. 딥러닝 기술과 결합하면서 사람의 목소리와 구별하기 어려운 수준으로 진화했고, 특정 화자의 톤·음색·패턴을 학습해 그 사람처럼 말하는 음성을 생성하는 ‘보이스 클로닝(Voice Cloning)’까지 등장했다.

글로벌 시장조사기업 마케리서치비즈에 따르면, 글로벌 TTS 시장 규모는 2022년 29억 달러(약 4조 2566억원)으로 2032년 111억 달러(약 16조 2925억원) 규모로 성장할 것으로 전망된다. 특히 콘텐츠 제작 현장에서의 변화가 가장 두드러진다. 성우와 녹음 스튜디오 없이 오디오북·온라인 학습 콘텐츠 제작, 게임 캐릭터 음성 구현이 가능해졌고 더빙하는 비용과 시간도 크게 줄었다. AI 에이전트에도 적용되면서 AI 음성 합성 기술은 디지털 서비스의 기본 인프라로 자리잡고 있다.

◇ 구글 ‘제미나이 3.1 플래시 TTS’, 감정까지 표현하는 음성 AI 공개

음성 합성 기술을 고도화하는 데 가장 적극적인 곳은 구글이다. 구글은 지난 15일(현지시간) TTS 모델 ‘제미나이 3.1 플래시 TTS( Gemini 3.1 Flash TTS) '를 공개했다. 이 모델은 텍스트를 정확하게 읽는 데 집중했던 기존 TTS와 달리, 맥락에 맞는 감정 표현까지 구현하는 수준으로 진화했다.

이번 모델의 핵심은 ‘오디오 태그(audio tags)'다. 자연어 프롬프트를 통해 음성의 속도·어조·억양 등을 세밀하게 조정한다. 장면의 분위기나 캐릭터의 감정 상태를 설명하면 모델이 이를 반영해 생성하는 방식으로, 연기에 가까운 음성 출력이 가능하다. 흥분한 듯 빠르게 말하거나, 속삭이듯 말하거나, 특정 단어에 강세를 주는 식의 연출이 가능해진 셈이다.

동시에 이용자는 장면을 설정하고 캐릭터마다 고유한 음성 프로필을 지정할 수 있다. 캐릭터들은 여러 대화가 이어지는 동안에도 일관된 성격을 유지하며 자연스럽게 반응한다. 완성된 음성은 제미나이 응용프로그래밍 인터페이스(API) 코드로 내보낼 수 있어 다양한 프로젝트·플랫폼에서 동일한 음성으로 재현된다.

‘제미나이 3.1 플래시 TTS’의 ‘오디오 태그’ 기능을 활용해 음성 표현력과 속도, 전달 방식 등을 조정하는 화면. 구글 공식 블로그 갈무리

구글에 따르면 제미나이 3.1 플래시 TTS는 블라인드 테스트로 선호도를 평가하는 ‘아티피셜 애널리시스 TTS 벤치마크’에서 1211점을 기록해, 1위인 인월드AI의 ‘인월드 TTS 1.5 맥스(Inworld TTS 1.5 Max)’(1215점)에 이어 2위를 차지했다. 아티피셜 애널리시스는 이번 모델이 고품질 음성과 낮은 비용을 동시에 갖춘 모델이라고 평가했다.

제미나이 3.1 플래시 TTS는 70개 이상의 언어를 지원 중이다. 각 언어의 방언과 억양까지 반영해 글로벌 시장을 본격적으로 공략한다는 구상이다.

◇ ‘기업가치 16조’ 일레븐랩스, 할리우드 배우 목소리 복제해 판매

AI 음성 분야의 또다른 강자로 부상하고 있는 글로벌 기업 중 하나가 영국 AI 기업 ‘일레븐랩스’다. 일레븐랩스는 TTS, STT(Speech-to-Text), 보이스 클로닝, 더빙, 사운드 효과, 음악 생성, 에이전트 오케스트레이션 등 다양한 기술을 보유하고 있다. 현재 월간활성이용자수 5000만명, 포춘 500대 기업 중 75%를 고객사로 두고 있으며, 올해 2월 시리즈D 투자 유치로 기업가치 110억달러(약 16조 1458억원)를 인정받았다.

일레븐랩스의 경쟁력은 70개 이상의 언어로 다양한 목소리를 구현해내는 실시간 음성 합성 기술이다. TTS 모델 ‘Eleven v3’는 뉘앙스 재현은 물론 대화 중 웃음·한숨·감탄사·숨소리 같은 비언어적 표현도 반영해 음성을 생성한다. 이와 함께 화자 자동 분리, 타임라인 편집, 응용프로그래밍 인터페이스(API) 기반 대량 처리를 지원해 더빙 시간을 대폭 단축했다.

대표적인 제품은 크리에이터와 브랜드를 위한 오디오 생성·편집·현지화 플랫폼 ‘일레븐크리에이티브’다. 70개 이상 언어로 오디오를 제작할 수 있다. 현재 듀오링고·엔비디아·타임 등 글로벌 브랜드들이 상업용 보이스오버와 음악 제작, 콘텐츠 현지화에 활용하고 있다.

일레븐랩스는 음성을 단순 기술이 아닌 지식재산권(IP)으로 만드는 시장에도 주목하고 있다. 지난해 출시한 플랫폼 ‘아이코닉 보이스’는 유명인의 목소리를 AI로 복제해 라이선스 계약 기반으로 상업적으로 판매한다. 토머스 에디슨·앨런 튜링 등 과학자와 할리우드 배우 매튜 맥커너히, 야구 선수 베이브 루스 등 28명의 목소리가 등록돼 있으며, 고인의 경우 기존 오디오 기록을 기반으로 복원했다.

할리우드 배우들이 AI에 거부감을 느끼고 있는 가운데 아이코닉 보이스는 아티스트의 AI 생태계 참여를 이끌어냈다는 평가를 받는다. 마티 스타니셰프스키 일레븐랩스 최고경영자(CEO)는 지난 기자간담회에서 “K-드라마·K-팝에는 세계적으로 인정받는 훌륭한 목소리가 많다”며 국내 유명인과의 협업 가능성도 시사했다.

일레븐랩스에 따르면 글로벌 마켓플레이스에는 총 1만개 이상의 음성이 등록돼 있다. 음성 제공자들은 지금까지 약 1100만 달러(약 162억원) 수익을 지급받았다.

일레븐랩스는 기술 고도화에 따른 음성 AI 악용에 대한 대응책도 마련했다. 딥페이크·저작권 침해 등 문제를 방지하는 동의·통제·보상을 축으로 한 ‘3C 프레임워크‘다. 동의는 검증 단계, 통제는 콘텐츠 추적·차단 시스템, 보상은 공정한 수익 창출 생태계 구축이다. 또 AI 생성 여부를 콘텐츠 파일에 직접 기록하는 국제 표준 ‘C2PA(콘텐츠 출처·진위 확인을 위한 연합)’도 적용해 투명성을 확보하고 있다.

스타니셰프스키 CEO는 “AI 오디오는 언어 장벽을 완전히 허물 것"이라면서 "실시간 번역과 더빙으로 모든 음성과 콘텐츠를 전 세계 어디에서나 접근할 수 있게 만들겠다“고 말했다.

◇ AI 더빙으로 언어 장벽 허문는 이스트소프트 ‘페르소에이아이'

국내 기업 중에는 이스트소프트가 음성 합성 기술을 더빙에 특화해 글로벌 콘텐츠 시장을 공략하고 있다. 플랫폼 ‘페르소에이아이(Perso AI)’의 AI 더빙은 영상 콘텐츠를 다양한 언어로 자동 더빙해주는 서비스다. 음성 인식부터 스크립트 추출·번역, 음성 합성, 립싱크, 영상 출력까지 전 과정을 하나의 파이프라인으로 결합·처리한다. 5초에서 최대 30분 분량의 영상을 지원하며, 쇼츠·릴스·틱톡 같은 숏폼부터 강연·다큐멘터리까지 다양한 콘텐츠에 적용되고 있다.

페르소에이아이는 ‘보이스 클로닝’ 기술을 활용해 화자의 목소리를 재현한다. 토크쇼·인터뷰·팟캐스트처럼 여러 인물이 등장하는 영상에서도 최대 10명의 화자를 동시에 인식하고 음성을 복제한다. 또 자체 개발한 ‘문화 지능 엔진’을 통해 단순 번역을 넘어 국가·문화별 맥락에 맞는 더빙을 구현한다.

지난달에는 감정 표현 고도화 업데이트도 진행했다. 감정 표현과 억양, 발화 타이밍이 전반적으로 개선됐으며, 감정 기복이 큰 대사나 속삭임·웃음 등도 구현 가능해졌다.

그간 더빙의 고질적 한계로 지목됐던 립싱크 불일치 문제도 해결했다. 이스트소프트는 한국어 발음 특성과 입술 움직임 패턴을 분석하는 자체 AI 모델을 개발해 음성에 맞는 입모양을 구현했다. 권택순 이스트소프트 최고기술책임자(CTO)는 “시청자는 립싱크가 어색하면 즉시 알아차린다”며 “립싱크가 원어 영상과 구분되지 않도록 만드는 데 많이 투자했다”고 강조했다.

시장조사업체 마켓앤어스에 따르면 전 세계 AI 더빙 도구 시장은 2023년 7억9430만달러(약 1조1658억원)에서 2033년 29억1890만달러(약 4조2843억원)까지 연평균 13.9% 성장할 것으로 전망된다. 기존 더빙은 인건비 등 높은 비용과 긴 제작시간이 접근 장벽이었지만, AI 더빙은 경제적 부담을 낮춰 수요가 늘고 있다는 분석이다.

특히 온라인동영상서비스(OTT)를 중심으로 도입이 증가하고 있다. 프랑스·이탈리아처럼 자국어 선호가 강한 시장은 물론, 자막 이용이 어려운 어린이·노인층까지 더빙 수요는 광범위하다. 동시에 해외 진출을 노리는 기업과 크리에이터·다중채널네트워크(MCN)의 수요도 늘고 있다.

페르소에이아이는 독일의 영상 기반 디지털 멘탈헬스 플랫폼 ‘카우치나우’, 러시아 게임 유튜버 ‘맥스딥’·‘미스터키’, 카자흐스탄 스트리밍 플랫폼 ‘유니코플레이’ 등에 도입됐다. 국내에서는 버츄얼 그룹 ‘이세계아이돌’ 등을 보유한 MCN ‘패러블엔터테인먼트’ 등과 계약을 체결했다.

이스트소프트는 시장의 수요에 대응해 페르소에이아이의 지원 언어를 지속적으로 확대하고 있다 . 현재 △한국어 △영어 △중국어 △일본어 △아랍어 △베트남어 △헝가리어 △힌디어 △러시아어 등 100개 언어를 인식하고 33개 언어로 더빙을 지원 중이다.

권 CTO는 “음성 표현의 정교함과 다국어 안정성을 함께 끌어올려 AI 더빙이 모든 콘텐츠 제작자의 기본 워크플로가 되는 환경을 만들 것"이라고 말했다.

나유진 기자 yujin@viva100.com