‘KT가 아나운서와 협업해 만든 ’AI보이스‘, 어떻게 사용될까

권진조 KT AI플랫폼사업담당이 지난 9일 서울 송파구 KT송파빌딩에서 KT 아나운서 AI 보이스에 대해 설명하고 있다. (사진=KT)

KT가 지난달 밀리의 서재와 함께 ‘아나운서 AI 보이스 오디오북’을 선보였다. 현재까진 아나운서의 AI 음성이 책을 읽어주는 등 오디오 콘텐츠 서비스를 제공하고 있지만, 향후 공공기관이나 박물관, 지방자치단체에서 안내인 역할로 서비스를 확대할 계획이다.

노진우 KT AI/BigData기획담당과 권진조 KT AI플랫폼사업담당은 지난 9일 서울 송파구에 위치한 KT송파빌딩에서 <블로터>와 만나 회사의 아나운서 AI 보이스 서비스와 향후 사업 계획에 대해 설명했다.

박소영 MBC 아나운서가 서울의 한 스튜디오에서 AI 아나운서 보이스 제작을 위해 본인의 음성을 녹음하고 있다. (사진=KT)

KT의 AI 보이스 서비스는 음성 합성 기술을 통해 AI 음성을 만들어주는 서비스다. KT는 지난달 31일 밀리의 서재와 함께 현직 아나운서 17명의 음성을 활용해 아나운서 AI 보이스 오디오북을 선보였다. 현재 아나운서의 음성에 어울리는 교양 및 자기계발 도서 4권을 선정해 제작했다.

제작에 참여한 아나운서들은 사전에 30문장을 녹음해 목소리의 샘플을 만들었다. KT는 회사의 AI 보이스 스튜디오 내 ‘마이 AI 보이스’ 기술로 이를 학습시키고 음성을 생성해냈다. KT는 AI의 음성이 더 인간적으로 느껴지도록 감정발화 기능도 최초로 적용했다.

권 담당은 “일반적으로 음성 서비스는 텍스트를 입력해 오디오 음성을 생성하는 형태인데, 우리는 여기에 좀 더 감정에 변화를 주고 싶다는 생각을 했다”며 “감정발화가 적용되면 내 목소리로 연기하는 AI 보이스를 만들 수 있다. 이는 아직 타사에는 없는 KT만의 최초 기술”이라고 설명했다.

KT가 AI를 활용해 아나운서의 목소리를 학습시키면서 제작의 효율성도 높아졌다. 일반적으로 전문 성우가 책 한 권의 완독본을 제공하려면 편집 과정을 포함해 일주일이 넘는 시간이 필요하다. 그러나 KT의 AI 아나운서 보이스를 활용하면 일주일에 4~5권의 완독본 제작이 가능하다.

권 담당은 “AI로 완독본을 제공할 때 ‘어색하지 않을까’라고 생각하는 사람들이 많다”며 “그러나 실제 아나운서가 들려주는 것 같다는 피드백을 많이 받고 있다. 특히 정보나 지식을 전달하는 수필, 자기계발서, 원서 등 특정 분야에서는 아나운서의 보이스가 더욱 잘 어울린다는 평도 많다”고 말했다.

다만 AI 아나운서의 음성은 현재 B2B(기업간거래) 만으로 제공된다. KT가 만든 아나운서의 음성을 플랫폼이나 공공기관, 지방자치단체 등에 제공하는 방식이다. 아나운서가 공인이기 때문에 목소리를 활용한 오남용을 방지하기 위해서다.

현재 KT는 밀리의 서재를 통해 김대호 아나운서의 ‘돈과 나의 일’, 김초롱 아나운서의 ‘내일을 바꾸는 인생 공부’ 서인 아나운서의 ‘위대한 경제학 고전 30권을 1권으로 읽는 책’, 박소영 아나운서의 ‘스낵 인문학’ 등을 AI 보이스로 제공하고 있다.

아나운서 AI 보이스 오디오북 소개 이미지. (사진=KT)

AI 아나운서 보이스는 향후 공공기관이나 박물관, 관광지 등 분야로 서비스를 확대할 계획이다. 일례로 KT는 서울 종로구 KT광화문빌딩에 조경 공간 ‘디지코 가든’을 조성했다. 해당 공간에서 QR코드를 찍으면 관광객이 꽃이나 식물에 대한 설명을 들을 수 있는데, 여기에 AI 아나운서 도슨트(지식을 갖춘 안내인) 기능이 적용됐다.

권 담당은 “현재 박물관이나 전시관 쪽에서 사업자를 검토중이며 미술관에서도 성우가 녹음하는 안내를 AI가 대신하는 방향으로 전환되지 않을까 기대하고 있다”며 “또 현재 일부 지방자치단체와 관광 분야에서 PoC(사업화검증)을 논의하고 있다”고 설명했다.

AI 보이스는 B2B 외에도 개인 고객도 이용할 수 있다. 다양한 연령대와 캐릭터를 담은 110개의 AI 보이스를 공개해 일반 창작자들도 쉽게 사용할 수 있도록 지원하고 있다. 한국어를 포함해 영어, 일본어, 중국어와 스페인어까지 5개 국어를 구사한다. 사용자가 해당 언어를 사용하지 못하더라도 AI가 학습한 정보를 토대로 변환된 음성을 제공한다. 다만 보안을 위해 실시간 녹음한 본인의 목소리만 사용할 수 있다. 사용자가 KT가 미리 제공한 스크립트(30문장)를 읽으면 AI가 자동으로 이를 학습해 음성을 만들어준다. 연내 일반 고객들도 나만의 AI 오디오북 제작이 가능하도록 지원할 계획이다.

KT는 △Free 월 10분 △Lite(1만2000원) 월 60분 △Super(4만8000원) 월 300분 △Super Plus(12만원) 월 960분 등 이용요금을 제공하고 있다. 이중 프리, 라이트 요금은 일반 고객이 슈퍼 요금은 유튜버나 크리에이터들이 주로 활용하고 있다. 슈퍼 플러스 요금은 스타트업이나 소규모 게임 개발사에서 사용한다.

노 담당은 AI 보이스의 향후 계획으로 동영상 콘텐츠를 꼽았다. 노 담당은 “최근 생성형 AI 콘텐츠가 많이 나오고 있다”며 “우리도 범위를 확장해 이미지나 AI 휴먼을 만들어 서비스하는 상품을 기획중이다. 오디오 콘텐츠 뿐만 아니라 동영상 콘텐츠에서 AI 보이스를 활용해 플랫폼을 발전시킬 계획”이라고 설명했다.

끝으로 그는 “그간 AI를 활용한 콘텐츠는 접근하기 어려운 딱딱한 이미지가 있었다”며 “그러나 최근 AI는 불편한 골짜기를 넘어서 공공기관 등 분야에서 사용이 확대될 것으로 본다. KT AI 보이스 스튜디오가 대한민국 대표 오디오 플랫폼으로 성장할 수 있도록 하겠다”고 덧붙였다.

Copyright © 블로터