억양·발음·높낮이 조절, 감정 표현도… 인간처럼 글 읽어주는 AI

황규락 기자 2024. 7. 18. 00:50
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

‘텍스트 음성 변환’ 기술 고도화
밀리의서재의 AI TTS 이미지. /밀리의서재

인공지능(AI)이 글을 읽어주는 ‘텍스트 음성 변환’(TTS·Text to Speech) 기술이 점점 정교해지고 있다. 단순히 글자를 읽는 수준을 넘어 내용에 따라 소리의 높낮이를 조절해 전달력을 높이고, 책에 담긴 감정까지 표현한다. 낭독(朗讀)이 더 이상 인간의 전유물이 아닌 셈이다.

전자책 플랫폼 밀리의서재는 최근 전자책 서비스에 음성 합성 기술을 이용한 AI TTS 기능을 도입했다. 기존 TTS가 기계의 목소리를 벗어나지 못한 반면, AI TTS는 실제 사람의 억양, 발음, 높낮이, 호흡 등을 모방해 자연스럽게 읽을 수 있다. AI가 처음 제시된 텍스트도 곧바로 읽을 수 있게 되면서 각각의 도서마다 오디오북 파일을 제작할 필요도 없어졌다.

밀리의서재는 사람처럼 자연스러운 고품질 AI TTS를 개발하기 위해 다양한 목소리와 문장을 학습시키는 과정을 거쳤다. 사람이 ‘옹알이’를 통해 말을 배우는 것처럼, AI도 많은 목소리와 다양한 문장의 발화를 들어야 하기 때문이다. 이를 위해 먼저 도서 분류별 특징을 잘 표현할 수 있는 전문 성우와 일반인 등 수백명의 대규모 음원 데이터를 만들어 학습을 위한 ‘베이스 모델’을 구축한다. 베이스 모델은 구문 분석 등을 통해 추출된 ‘텍스트 정보’와 주파수 대역별 특징과 발화 스타일 등이 입력된 ‘음성 정보’로 각각 나눠져 AI 학습에 동시에 사용됐다.

AI가 ‘사람 같은 낭독’을 하기 위해서는 도서 분류나 개인 취향에 맞춰 다양한 목소리로 글을 읽을 수 있어야 한다. 밀리의서재는 이를 위해 다양한 연령대의 성우 녹음 데이터를 확보하고, 각 성우의 음색과 발성 특성이 반영될 수 있도록 AI 음성 합성 모델을 훈련했다. 이 과정에서 목소리에 담겨 있는 음색, 억양, 감정 등을 AI가 학습할 수 있도록 음성 데이터에 녹아 있는 정보를 AI가 이해할 수 있는 데이터로 바꿔야 했다. 이때 사용된 기술이 음성 주파수를 사람이 달팽이관을 통해 인식할 수 있도록 변환하는 ‘멜 스펙트로그램 분석’이다. 음성 데이터의 특정 주파수를 대역별로 분석해 말의 피치, 볼륨, 음소별 길이 등 특징을 AI 학습을 위한 데이터로 바꾸는 것이다. 이를 통해 AI가 다양한 음성 파형을 만들어 문학, 철학, 에세이, 과학 등 도서 분류별 특징을 적절하게 표현할 수 있게 됐다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?