미국인에 "투표하라"는 김정은…'탑건' 발킬머도 이 기술 덕 봤다

심재현 기자, 황국상 기자 2023. 2. 11. 14:12
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

음성 합성 기술은 말소리의 음파를 기계가 자동으로 만들어내는 기술이다.

2010년대 중반까지만 해도 음성 합성 분야에서만큼은 기술이 사람을 쉽게 따라오지 못했다.

인후암 수술을 받은 뒤 목소리 연기에 어려움을 겪고 있는 영화배우 발 킬머가 할리우드 영화 '탑건 매버릭'에 출연할 수 있었던 것도 소난틱의 음성합성 기술의 도움 덕이었던 것으로 알려진다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[MT리포트-신종범죄의 습격 1부: 딥보이스, AI 잡는 AI]⑤
미국 시민단체가 인공지능 딥페이크 기술로 제작한 미국 대선투표 독려 영상. 김정은 북한 국무위원장이 등장해 투표를 독려한다. /유튜브 영상 캡쳐


음성 합성 기술은 말소리의 음파를 기계가 자동으로 만들어내는 기술이다. 목소리를 녹음하면 일정한 음성 단위로 분할해 보관했다가 필요할 때마다 조각난 음성을 합해 목소리를 만들어낸다.

유튜브에서 일명 '봇'이 읽어주는 자막이 이런 기술로 만들어진 대표적인 결과물이다. 과거에는 부자연스러운 억양도 문제지만 조각난 음성을 사람이 일일이 이어붙이는 데 걸리는 시간이 더 문제였다.

1950년대부터 연구된 음성 합성 기술이 기술의 장벽을 넘지 못했던 이유가 여기 있다. 2010년대 중반까지만 해도 음성 합성 분야에서만큼은 기술이 사람을 쉽게 따라오지 못했다. 흉내내는 목소리 기술이 있었을 뿐이다.

상황이 뒤집힌 것은 인공지능(AI)이 등장하면서부터였다. 사람의 뇌를 그대로 재현한 듯한 신경망 회로가 머신러닝과 딥러닝을 반복하면서 말 그대로 말을 배우기 시작했다. 구글이 기존의 음성인식기술 타코트론과 구글 딥마인드가 개발한 웨이브넷을 합해 2017년 출시한 '타코트론2'는 "음~"이나 "어~"처럼 사람들이 쓰는 추임새까지 구사하는 수준에 이르렀다.

한층 더 진화한 인공지능이 만들어내는 딥보이스(가짜 음성)는 자연스럽지만 무미건조했던 목소리의 수준을 넘어 감정까지 구사한다. 지난해 스포티파이가 인수한 인공지능 음성합성 스타트업 소난틱의 기술은 같은 문장을 '화난', '공포에 질린', '행복한', '슬픈', '소리지르는' 등 다양한 감정으로 표현하고 감정의 세기도 3단계로 설정할 수 있어 현실감을 더한다.

인후암 수술을 받은 뒤 목소리 연기에 어려움을 겪고 있는 영화배우 발 킬머가 할리우드 영화 '탑건 매버릭'에 출연할 수 있었던 것도 소난틱의 음성합성 기술의 도움 덕이었던 것으로 알려진다.

2020년에는 김정은 북한 국무위원장이 "아무것도 하지 않으면 민주주의가 망한다"며 대선 투표를 독려하는 딥페이크 영상이 화제가 됐다. 미국의 부패 감시 시민단체 '리프레젠트어스'가 인공지능을 이용해 만든 이 가짜 영상은 김 위원장의 몸통과 머리를 연결한 부분의 움직임이 약간 어색하지만 얼굴 표정과 목소리 등은 진짜와 흡사하다.

심재현 기자 urme@mt.co.kr, 황국상 기자 gshwang@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

Copyright © 머니투데이 & mt.co.kr, 무단 전재 및 재배포 금지

이 기사에 대해 어떻게 생각하시나요?