나를 대신하거나 내 목소리와 닮거나..."AI 음성변조로 콘텐츠 생태계 더 풍성하게"

허훈(왼쪽부터) 수퍼톤 최고기술책임자, 이교구 대표, 김희영 제품개발실장이 지난 9일 수퍼톤 본사에서 인터뷰를 진행하고 있다. 수퍼톤 제공

"'시프트'를 활용하면 목소리를 공개하고 싶지 않거나, 자신의 목소리 대신 여러 목소리를 담고 싶은 크리에이터들이 콘텐츠를 자유롭게 제작할 수 있다. 더 많은 크리에이터들이 목소리의 제약 없이 더 다양하고 재미있는 콘텐츠를 만들도록 돕겠다."

이교구 수퍼톤 대표는 현재 오픈베타 서비스 중인 자사 인공지능(AI) 기반 실시간 음성변환 서비스 '시프트'를 이같이 소개했다.

지난달 15일 오픈베타가 시작된 시프트는 이용자가 10초 정도의 짧은 샘플로 본인의 목소리를 학습시킨 후 시프트에서 제공하는 캐릭터 중 하나를 선택하면, 사용자가 발화하는 즉시 캐릭터 목소리로 음성이 실시간 변환되는 프로그램이다. 기존에도 마이크를 통해 음성을 변환하는 서비스가 있었으나, 시프트는 변환 속도를 크게 높여 차별화했다.

이 대표는 "이용자가 말하는 음성과 시프트를 통해 변환돼 송출되는 음성 사이의 지연시간이 0.05초 수준에 불과해 발화 즉시 음성 변조가 가능하다"며 "실시간 방송에서도 양방향 소통이 가능하다"고 설명했다.

시프트는 또한 실제 사람의 발화에 가깝게 자연스럽고 섬세한 음성을 구현한다. 이를 가능하게 하는 것은 수퍼톤이 자체 개발한 음성합성 파운데이션 모델 '낸시(NANSY)'다. 낸시가 분석하는 목소리의 구성 요소는 음색·발음·음고·강세 등 네 가지로, 이렇게 분석된 요소들을 개별적으로 제어해 음성을 재합성함으로써 실제 사람 목소리에 버금가는 품질의 결과물을 내놓는다. 또 목소리 자체를 변환하는 원리여서 외국어의 제약이 없고, 대화뿐 아니라 노래나 속삭임, 비언어적인 표현도 구현할 수 있다.

김희영 수퍼톤 제품서비스실장은 "지난달 오픈베타를 시작하면서 이용자 목표를 1만명으로 잡았는데, 오픈하자마자 일본에서 반응이 좋아 이미 목표를 조기 달성했다"며 "이제 목표를 5만명으로 높이고 서비스를 진행 중"이라고 말했다.

시프트는 성별과 나이에 따른 10개의 캐릭터 음성을 보유하고 있다. 캐릭터 음성을 이용자가 원하는 대로 커스터마이징 가능한 것도 장점이다. 목소리의 감정이나 소리, 울림 정도를 조절하는 것은 물론 이용자 본인의 목소리를 원하는 비율로 섞어 이용자의 목소리 정체성을 일부 유지한 새로운 목소리를 연출할 수도 있다. 클라우드 등의 별도 리소스 없이 일반적인 하드웨어에서 사용할 수도 있다.

시프트는 '버튜버(버추얼 유투버)', 실시간 스트리머 등 크리에이터를 중심으로 높은 관심을 받고 있다. 시프트를 활용하면 콘텐츠 콘셉트에 맞는 다양한 목소리가 필요한 디지털 크리에이터나, 게임 등 가상 캐릭터의 개성을 더할 수 있는 게임 스트리머 등이 더 생동감 있는 콘텐츠 연출과 풍성한 스토리텔링을 할 수 있다. 이 대표는 "수퍼톤 음성 기술의 궁극적인 지향점은 한계 없는 콘텐츠 제작 환경을 조성하는 것"이라며 "콘텐츠 크리에이터들의 상상력을 온전히 구현할 수 있도록 돕는 유용한 창작 도구를 제공하는 게 목표"라고 말했다.

수퍼톤은 AI 오디오 기술 기업에서 콘텐츠 크리에이터에게 직접 AI 솔루션을 제공하는 서비스 기업으로 외연을 확장하고 있다. 시프트 오픈베타 서비스 이후 지난해 11월에는 실시간 AI 잡음제거 플러그인 솔루션 '수퍼톤 클리어'를 출시했다. 올해는 시프트 정식 출시를 비롯해 텍스트 음성 변환(TTS) 기술을 활용한 '프로젝트 스크린플레이'도 공개할 예정이다. 수퍼톤의 TTS 기술은 이미 하이브의 글로벌 팬덤 플랫폼 '위버스'와 하이브 실적 발표 등에서 적용되고 있다.

수퍼톤은 음성 AI 기술의 부작용을 방지하기 위한 노력도 하고 있다. 허훈 수퍼톤 최고기술책임자(CTO)는 "이용자들이 일상적이고 본인의 특징을 더 담은 목소리를 개발해 달라는 요청을 많이 하지만 이에 따른 위험성을 인식하고 있다"며 "시프트의 캐릭터들이 매우 강하고 일상에서 찾기 어려운 목소리 위주로 구성된 것도 이 같은 이유"라고 설명했다.

이 대표는 "수퍼톤이 강조하는 기술이 실시간성인데 그만큼 위험성도 고민하고 있다"며 "올해 하반기를 목표로 '오디오 워터마킹' 기술을 개발 중으로, AI로 생성되는 음성에 대해 이용자 정보 등을 사후 확인할 수 있도록 하겠다"고 강조했다.전혜인기자 hye@dt.co.kr

디지털타임스

IT

나를 대신하거나 내 목소리와 닮거나..."AI 음성변조로 콘텐츠 생태계 더 풍성하게"