“AI, 목소리 15초만 들어도 거의 똑같이 복제”

“힘이란 물체를 움직이고 방향을 바꾸게 하는 것인데…”

물리학 개념인 ‘힘’을 설명하는 15초 분량의 목소리가 흘러 나왔다. 이를 들은 인공지능(AI)은 곧장 이 목소리로 생물, 영어 독해, 수학 등 각 분야 강의 샘플을 만들어 냈다. AI가 목소리를 복제한 뒤 그 목소리로 챗GPT가 만든 텍스트를 읽은 것이다.

이는 오픈AI가 지난달 29일(현지 시간) 맛보기(프리뷰) 방식으로 공개한 음성 복제 모델 ‘보이스엔진’의 샘플 사례다. 오픈AI는 보이스엔진이 15초 분량의 사람 목소리만 있으면 거의 똑같게 음성을 복제해 낸다고 밝혔다.

AI의 음성 복제 기술 자체가 새로운 것은 아니다. 이미 수많은 스타트업과 기술 기업이 음성 복제에 뛰어든 상태다. 하지만 챗GPT와 같은 강력한 언어 생성AI 모델과 수억 명 사용자를 보유한 오픈AI가 음성 복제에 뛰어들었다는 점에서 딥페이크(조작된 영상, 이미지, 음성)가 불러올 혼란에 대한 우려를 키우고 있다.

오픈AI는 “위험성을 감안해 소수 개발자 그룹에만 보이스엔진 기술을 공유할 것”이라고 밝혔지만 AI발(發) 딥페이크 피해는 늘고 있다. 올 초 미국 대선 경선 과정에선 조 바이든 미 대통령 목소리를 사칭한 허위 전화가 돌아 파장이 일었다. 국내에서도 배우 조인성, 송혜교 등 유명인의 음성과 얼굴을 조작한 투자 권유 영상을 활용한 사기 범죄가 발생했다.

챗GPT와 음성복제 기술의 만남…‘오용 우려’에 대규모 배포 미정

“샘 올트먼 목소리인 줄 알았다.”

오픈AI의 음성 복제 기술 ‘보이스엔진’ 시연에 참석한 블룸버그통신은 “올트먼 오픈AI 최고경영자(CEO) 목소리로 제품 설명을 들었다”고 했다. 실제 목소리 같았지만 보이스엔진이 만들어낸 음성이었다.

오픈AI가 2022년 말부터 개발해 왔다고 밝힌 이 음성 복제 기술은 ‘텍스트 음성 변환’과 챗GPT의 ‘읽어주기’ 기능을 기반으로 하고 있다. 챗GPT가 사용자의 질문을 받고 텍스트를 생성하며 이를 음성으로 변환해 읽어주는 기능이다. 여기에 ‘보이스엔진’을 접목하면 챗GPT가 특정인의 목소리로 각종 콘텐츠를 생성해 낼 수 있다. 또 챗GPT의 능력을 갖춘 음성 복제 기술이라 15초 목소리 샘플만으로도 해당 목소리로 각종 언어를 구사할 수 있다.

● 챗GPT와 15초 음성 복제술의 결합

음성 복제 기술은 오픈AI 뿐 아니라 일레븐렙스, 레플리카 스튜디오 등 다양한 스타트업이 뛰어든 분야다. 오용 사례도 상당수 확인될 만큼 새로운 기술은 아니다. 하지만 전 세계에 사용자 1억8000만 명을 둔 챗GPT와 음성 복제 기술이 만날 때의 위력에 대한 우려로 미 언론들도 주목하고 있다. 블룸버그는 “딥페이크의 망령을 불러내고 있다”고 평가했다.

오픈AI는 우선 15초 목소리만으로도 정확한 음성 복제가 가능하다는 기술력을 강조하고 있다. 제프 해리스 오픈AI 제품 책임자는 미 정보기술(IT) 매체 테크 크런치와의 인터뷰에서 “오픈AI의 개발 방식이 더욱 강력하고 고품질의 음성을 만들 수 있다”고 밝혔다. 테크 크런치에 따르면 보이스엔진 사용 비용이 다른 스타트업보다 훨씬 저렴한 것으로 파악된다.

음성 복제 기술에 많은 테크기업들이 뛰어드는 이유은 기업 고객의 수요가 높기 때문이다. 성우 등 나레이터를 한 번만 고용하면 이를 바탕으로 각종 광고, 비디오게임, 공공장소 안내방송까지 AI가 대신할 수 있어 비용을 크게 줄일 수 있다.

오픈AI는 오용 우려를 감안한 듯 “‘선한’ 분야에서 음성복제가 활용될 수 있다”는 점도 강조했다. 오픈AI의 보이스엔진 개발 협력사 중 하나인 비영리 의료 시스템 라이프스팬의 노먼프린스신경과학연구소는 갑작스런 뇌종양으로 목소리를 잃게 된 어린 환자에게 예전에 학교 프로젝트용으로 녹음한 음성을 토대로 원래 목소리를 복원해줬다는 것이다. 이 환자는 자신이 입력한 텍스트를 자신의 목소리로 읽히게 할 수 있다.

● ‘오용 우려’ 대규모 배포 일정은 미정

문제는 음성 복제가 딥페이크와 같은 부작용을 더욱 악화시킬 수 있다는 점이다. 올해 1월 조 바이든 미국 대통령을 사칭한 가짜 목소리로 11월 대선 후보를 선출하기 위한 뉴햄프셔주 프라이머리(예비선거)를 앞둔 주민들에게 무작위 전화가 걸려 오는 사건이 충격을 주기도 했다. ‘가짜 바이든’은 주민들에게 “예비선거에 투표하지 말라”고 권유하는 등 선거에 영향을 주려 했다. 이에 따라 미 연방통신위(FCC)는 AI발 ‘로보콜’ 자체를 금지했다.

영상과 결합해 유명인을 사칭한 허위 광고, 투자 권유 사기 범죄도 급증하고 있다. 미국에선 배우 톰 행크스가 그를 사칭하는 광고에 이용됐고, 배우 엠마 왓슨은 혐오 메시지 선동에 동원됐다. 국내에서도 배우, 가수를 비롯한 유명인을 사칭한 온라인 피싱 범죄가 확산돼 금융감독원이 금융투자 사기에 대한 주의를 당부하기도 했다.

오픈AI도 이러한 혼란을 우려해 보이스엔진 기술의 대규모 배포는 당분간 하지 않겠다고 밝혔다. 회사 측은 “(11월 미 대선 등) 선거가 있는 해에 사람 목소리를 닮은 AI가 가져올 리스크를 잘 인식하고 있다”며 “정부, 미디어, 엔터테인먼트, 교육, 시민 사회 등 다양한 분야와 협력해 그들의 피드백을 반영해 개발해 나가겠다”고 밝혔다. 또 워터마크 기술을 활용해 AI와 실제 사람 목소리를 구분할 수 있는 기술을 확대할 것이라고도 강조했다.

뉴욕=김현수 특파원 kimhs@donga.com
이지윤 기자 asap@donga.com

동아일보

국제

“AI, 목소리 15초만 들어도 거의 똑같이 복제”