보이스 편집 넘어 제작까지 'AI 보이스' 시장 뜨겁다..글로벌 빅테크들 기술 경쟁

김경은 기자 2021. 11. 29. 19:23
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[경향신문]
사용자가 직접 TTS(text-to-speech)를 편집하거나 원하는 목소리로 커스텀 보이스를 간단하게 구축하는 서비스가 인공지능(AI) 분야에서 주목받고 있다. 이를 활용해 창작자는 효율적으로 더빙 등 오디오 콘텐츠를 제작하고 중소 규모 브랜드는 개성있는 마케팅 활동이 가능해 글로벌 빅테크 기업들의 기술 경쟁도 본격화하고 있다.

■국내·외 빅테크 및 스타트업, ‘커스텀 보이스’ 개발 기술 경쟁

네이버는 최근 사용자가 스마트폰 녹음만을 활용해 고품질의 커스텀 보이스를 제작할 수 있는 ‘보이스 메이커’를 베타 오픈했다. 네이버는 올해 인터스피치 등 최고 권위의 글로벌 음성 기술 학회에서 국내 기업 중 가장 많은 수준의 논문을 발표하는 등 국내 기업 중 음성 합성 분야에서 기술적으로 가장 앞선다는 평가를 받고 있다. 또 2019년 400개 문장(총 40분)의 음성 녹음만으로도 자연스러운 합성음을 구현하는 ‘NES(Natural End-to-end Speech Synthesis System)’ 기술을 공개하고 이를 고도화해왔다.


마이크로소프트는 인공신경망 기술을 기반으로 ‘플랫폼 인공신경망 음성’ ‘사용자 지정(Custom) 인공신경망 음성’ 서비스를 각각 제공한다. 마이크로소프트가 자체 제공하는 다양한 언어의 성우 목소리를 활용할 수 있으며, 사용자가 직접 음성을 녹음해 해당 목소리로 음성 합성기를 만들 수도 있다. 이러한 마이크로소프트의 TTS 서비스는 자체 클라우드 플랫폼인 ‘애저’를 통해 글로벌 사용자들에게 제공되고 있다. 미국의 AT&T가 마이크로소프트의 솔루션을 이용해 애니메이션 캐릭터 ‘벅스버니’의 목소리와 대화를 구현해 체험 매장을 찾은 고객과 이야기를 나눌 수 있도록 해 화제가 되기도 했다.

구글도 ‘구글 클라우드’를 통해 TTS 서비스를 제공하고 있다. 자체 제공하는 성우 음성을 활용하는 것을 넘어 사용자들이 고유한 음성을 만들어 합성할 수 있는 솔루션을 베타 서비스로 오픈했다. 올해 30분만의 녹음으로 사람과 같은 목소리를 만들어내는 기술을 공개한 엔비디아, 다양한 언어의 음성 합성기를 제공하고 있는 아마존도 커스텀 AI 보이스 구축 기술 경쟁에 뛰어든 상황이다.

국내에서는 AI 기반 음성합성 기술 스타트업 ‘네오사피엔스’가 MBC 다큐멘터리 <너를 만났다>에서 커스텀 보이스 구축 기술을 활용해 생전 녹음된 음성을 기반으로 고인의 목소리와 대화를 재현했다. 음성 전문 기업 ‘리드스피커코리아’도 올해 커스텀 보이스 기술 개발에 나서겠다는 계획을 발표했으며, 사용자가 원하는 음성으로 AI 보이스를 개발할 수 있는 시스템인 ‘보이스랩’을 구축했다고 밝힌 바 있다.

■플랫폼 제공 성우 목소리 활용한 TTS 편집 서비스는 상용화 단계

사용자가 플랫폼이 제공하는 목소리를 바탕으로 직접 TTS를 편집할 수 있는 서비스는 다양한 사업 영역에 적용되며 이미 상용화 단계에 들어섰다.

네이버가 2020년 출시한 ‘클로바더빙’은 텍스트를 입력해 합성음을 생성하고 동영상에 더빙할 수 있는 서비스다. 총 85종류의 보이스가 제공되고 있으며 최근에는 아나운서 조수빈, 가수 심규선, 개그우먼 이수지 등 셀럽 보이스들도 새롭게 추가되었다. 클로바더빙은 스타트업에서 서비스 광고 영상을 제작하거나 소상공인들이 상품을 소개하는 영상에 목소리 더빙으로 활용되고 있다. 코로나19로 비대면 수업이 빈번한 교육 현장에서 영상 강의를 제작해야 하는 교육 종사자들에게도 유용하게 활용됐다.

독서 플랫폼 ‘밀리의 서재’는 사용자가 TTS를 이용하여 오디오북을 편집하고 제작하는 서비스인 ‘내가 만드는 오디오북’을 올해 런칭했다. KT는 음원 플랫폼 지니뮤직에서 자사의 TTS 기술을 이용해 대량의 텍스트기반 콘텐츠를 리스너가 원하는 목소리로 다양하게 변화시키고 다국어변환을 지원하겠다는 계획을 밝혔다.

이처럼 콘텐츠, 마케팅 등 영역에서 창작자와 브랜드마다 고유한 AI 보이스를 구축하고자 하는 수요가 높아지면서, 플랫폼이 TTS 서비스를 위해 제공하는 목소리 종류는 더욱 다양해질 전망이다. 이에 따라 각각의 사용자가 더욱 쉽고 간단한 방법으로 커스텀 보이스를 구축할 수 있는 기술 경쟁도 국내·외 업체 사이에서 지속될 것으로 보인다.

김경은 기자 jjj@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?