"온디바이스AI로 장르 맞춤 목소리, 오디오북 대중화 시대 연다"

김건우 기자 2024. 5. 20. 13:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 엑스포 코리아 2024에서 공개된 셀비 딥TTS 온디바이스 /사진제공=셀바스AI

"온디바이스 인공지능(AI) 기능을 활용해 인터넷 연결 없이도 전자책을 음성으로 즐길 수 있습니다. 책의 장르에 맞는 맞춤 목소리로 듣는 책의 시대를 열겠습니다"

이항섭 셀바스AI HCI(휴먼컴퓨터인터렉션) 부문 대표는 지난 1일 개최된 'AI 엑스포 코리아 2024'에서 머니투데이와 만나 새롭게 선보인 '셀비 딥TTS 온디바이스'(Selvy deepTTS 0n-Device, 이하 셀비 딥TTS)에 대해 이같이 소개했다.

'셀비 딥TTS'는 온디바이스 AI 기반의 딥러닝 기반의 음성합성 솔루션이다. 온디바이스 AI는 인터넷이 연결돼 클라우드 기반으로 사용되는 AI와 달리 기기 내에서 실시간 처리한다는 특징이 있다.

셀바스AI는 26년간 딥러닝 기반 음성지능, 필기 지능, 영상지능, 자연어 처리, 음성합성 등의 HCI 기술을 개발해 왔다. 국내 최초로 사람처럼 자연스러운 음성, 다양한 스타일 표현이 가능한 기술(DNN-TTS)을 상용화했다. 덕분에 밀리의 서재, 리디, 교보문고, 알라딘, 문피아 등 국내 대표 전자책 서비스 기업들이 셀비스AI의 기존 TTS 기술을 사용하고 있다. 국내 전자책 시장에서 음성합성 기술 점유율은 95%가 넘는다.

셀바스AI가 개척하려는 TTS(음성자동변환기술) 시장은 기존의 오디오북 시장과는 확연히 다르다. 우리에게 익숙한 오디오북은 연예인 또는 전문 성우가 낭독해 실감 나고 몰입감 넘치는 경험을 제공한다.

하지만 오디오북은 종이책보다 최소 4~5배 비싼 제작비용이 걸림돌이었다. 오디오북을 만들려면 내레이션부터 편집, 마스터링까지 다양한 작업이 필요하기 때문이다. 결국 오디오북 제작 수가 늘어나지 않으면서 국내 시장 규모도 1000억원 수준에 머물러 있다.
해외는 오디오북이 종이책 넘어서기도, 자연스러운 목소리로 책 읽어줘야

스웨덴은 2022년 오디오북 이용권수가 종이책 판매량을 넘었고, 나스닥에 상장한 글로벌 오디오북 업체 스토리텔은 시가총액이 46억 달러(약6조2445억원)에 달한다. 이 대표는 해외와 달리 국내에서 오디오북이 빠르게 커지지 않는 이유를 고민했다.

이 대표가 주목한 건 오디오북의 목소리와 제작되는 종수였다. 오디오북의 가장 큰 장점은 다른 일을 하면서 독서를 할 수 있다는 것이다. 특히 해외에서는 많은 사람들이 자기 전에 오디오북을 들으면서 잠드는 경향이 많았다. 하지만 기존 음성자동변환기술(TTS)로는 사람이 읽는 오디오북 이상의 경험을 줄 수는 없었다. 또 오디오북 제작에 시간과 비용 많이 들어 신규 발행 종수가 제한적이다.

반면 셀비 딥TTS는 실시간으로 전자책을 사람과 같이 자연스러운 목소리로 읽어 준다. 전자책 기업들은 오디오북 수준의 보이스로 다양한 콘텐츠를 즉시 제공 가능하며, 독자들은 모든 전자책 콘텐츠를 오디오북과 같이 즐길 수 있다.

이 대표는 "전문 성우들이 낭독해주는 오디오북은 특수 음향 효과 삽입이 더해져 실감 나지만, AI가 읽어주는 오디오북은 기계음 때문에 감정 전달도 잘 안되었다"며 "책 한권을 듣는데 5~6시간이 필요한 만큼 근본적인 대책이 필요하다고 봤다"고 말했다.

그는 '셀비 딥TTS'에 대해 "기존에는 정보 전달을 목적으로 텍스트를 읽는 수준이었다면, 이제는 사람에 가깝게 부드럽고 유창한 목소리를 들을 수 있다"며 "업체는 성우 낭독과 비교해 인건비와 제작비 절감에 큰 도움이 되고, 독자들은 관심 있는 전자책을 편한 목소리로 듣는 기회가 될 것"이라고 말했다.

AI 엑스포 코리아 2024에서 공개된 셀비 딥TTS 온디바이스 /사진제공=셀바스AI
온디바이스 기능으로 인터넷 없이도 전자책 읽어준다…20개 남녀 목소리 공개

과거에는 클라우드 서버에 접속해 콘텐츠를 다운받아야 했지만, '셀비 딥TTS'는 온디바이스 기능을 사용해 기기 내에서 실시간으로 전자책을 음성으로 바꿔준다. 특히 최근 스마트폰에서만 온디바이스 AI 기능을 사용할 수 있는데 반해 '셀비 딥TTS'는 2019년 출시된 갤럭시S10 모델부터 사용이 가능하다. 소프트웨어 다운 용량도 320MB(메가바이트) 수준밖에 되지 않는다.

'셀비 딥TTS' 목소리의 숫자도 다양하다. 이번 전시회에서 '셀비 딥TTS'는 남녀 각각 10개, 총 20개의 목소리를 공개했다. 이 목소리는 전자책의 장르에 맞게 선택해 들을 수 있다. 오디오북과 같이 특수효과음은 없지만, 옆에서 부모님이 동화책을 읽어주던 수준의 환경은 느낄 수 있다. 과거 오디오북으로 즐기기 어려웠던 문학, 에세이 등을 들으려는 수요가 늘어날 것으로 기대한다고 이 대표는 전했다.

이 대표는 셀바스AI가 다양한 스타일과 음색의 AI 목소리를 개발 중이라고 강조했다. 셀바스AI는 성우가 짧게는 1시간, 최장 5시간 녹음을 하면 이를 AI 목소리로 만들 수 있다. 또 생성형 AI와 음성합성 기술을 활용해 실제 녹음을 하지 않은 가상의 AI 목소리도 만들고 있다.

이 대표는 전자책 업체를 대상으로 '셀비 딥TTS'의 영업을 시작했다. 빠르면 상반기 중 '셀비 딥TTS'를 소비자들이 만날 수 있다고 귀띔했다. 또 앞으로 컨텍센터 상담사, 키오스크, 로봇 등으로 적용 영역을 넓혀나갈 계획이다.

그는 "웹소설, 웹툰 등 과거에 상상하지 못했던 모바일 유료 콘텐츠의 시대가 열렸다. 디지털 시대에 오디오북은 전자책이 어려운 시니어들에게도 기회가 될 것"이라며 "'셀비 딥TTS'로 한국 전자책 소비의 새로운 문화를 만들고 싶다"고 덧붙였다.

김건우 기자 jai@mt.co.kr

Copyright © 머니투데이 & mt.co.kr, 무단 전재 및 재배포 금지

이 기사에 대해 어떻게 생각하시나요?