[영상] "엄마! 도와줘" 난 10분 만에 당신의 목소리를 훔쳤다

이혁기 기자 2024. 4. 23. 13:10
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

더스쿠프 커버스토리 視리즈
딥보이스 보이스피싱의 덫❸ 영상
AI 학습으로 만들어진 목소리
기자가 직접 만들어 보니…
지인 목소리 그대로 모방
딱딱한 국어책 말투 사라져
실시간 통화 불가능하지 않아

# 우리는 '딥보이스 보이스피싱의 덫' 1편과 2편에서 인공지능(AI)을 활용한 '딥보이스 보이스피싱'의 위험성을 알아봤습니다. 한 직장인은 AI로 만든 고2 막냇동생의 절규에 속아 넘어가 6000만원을 빼앗겼습니다. 해외의 어느 은행 지점장은 수백억원의 돈을 사기범의 계좌로 송금하기도 했죠. 이처럼 사기꾼들은 AI에 자녀, 동생, 지인, 직장 동료의 목소리를 학습시켜 사기수단으로 활용했습니다.

# 혹자는 "전문가가 아니라면 AI 기술을 제대로 사용할 수 없기 때문에 딥보이스 보이스피싱은 흔한 일이 아니다"며 대수롭지 않게 받아들일지 모릅니다. 과연 그럴까요? 별다른 기술이 없는 기자가 직접 누군가의 목소리를 훔쳐봤습니다. 더스쿠프 視리즈 '딥보이스 보이스피싱의 덫' 마지막 편에서 그 과정을 자세히 공개합니다.

요즘 유튜브에선 가수 비비가 부른 '밤양갱'이 유행입니다. 따라 부르기 쉬우면서도 중독성 있는 멜로디와 가사 덕분인지 밤양갱은 사람들의 많은 사랑을 받고 있습니다. 밤양갱을 따라 부른 '커버곡'도 덩달아 인기를 얻고 있죠.

그중에서도 사람들의 이목을 끈 건 '밤양갱 인공지능(AI) 커버곡'입니다. 특정인의 목소리를 샘플로 사용해 AI에 학습시킨 뒤 밤양갱을 따라부르도록 한 것인데, 이를 '딥 보이스(Deep voice)'라고 합니다. 이 기술은 지금은 세상에 없는 가수의 목소리도 재현해낼 정도로 뛰어난 정교함을 자랑합니다. 고故 김광석의 목소리로 부른 밤양갱 커버곡이 인터넷 커뮤니티에 퍼지면서 주목을 받은 건 대표적인 사례죠.

문제는 딥보이스가 '보이스피싱(Voice phishing)' 같은 사기 범죄에 악용되기 시작했다는 점입니다. 사기꾼들이 가족이나 직장동료 등 범죄 타깃과 가까운 지인의 음성기록을 확보한 뒤 딥보이스 기술을 활용해 범죄에 사용하고 있다는 겁니다.

그 과정에 '대단한 기술'이 필요한 것 아니냐고요? 그렇지 않습니다. 사기꾼들이 어떤 과정을 거쳐 딥보이스를 보이스피싱에 악용하고 있는지, 기자가 직접 재현해 봤습니다.

■ 과정➊ 학습=먼저 딥보이스 기술을 이용할 수 있는 사이트 '일레븐랩스'에 접속했습니다. 이 사이트는 문장, 이를테면 텍스트를 AI가 읽어주는 TTS(Text to Speech) 기능을 무료로 제공하고 있습니다. 여기서 한발 더 나아가 최근엔 목소리 샘플을 업로드하면 이를 학습해 해당 목소리로 텍스트를 읽어주는 기능도 제공하고 있죠.

기자는 유료 결제를 통해 일레븐랩스의 딥보이스 기능을 활성화했습니다. 그런 다음, 동료 기자에게 AI가 학습할 '목소리 샘플'을 부탁했습니다. 동료 기자는 더스쿠프 기사를 1분간 읽은 것을 녹음해 기자에게 보내줬습니다. 기자는 이를 일레븐랩스에 업로드해 AI가 목소리를 학습할 수 있도록 만들었습니다.

10초도 되지 않아 일레븐랩스가 학습을 끝마쳤습니다. 기자가 특별히 해야 할 일은 없습니다. '이 플랫폼을 써서 만든 콘텐츠를 불법적인 일이나 사기, 해로운 목적으로 쓰지 않겠다'는 조항에 체크하면, 모든 준비가 끝납니다.

인공지능으로 목소리를 학습해 제3자를 사칭하는 '딥보이스 보이스피싱'이 늘고 있다.[일러스트=게티이미지뱅크·더스쿠프 포토]

■ 과정 텍스트 읽기=이제는 AI가 읽을 텍스트를 작성할 시간입니다. 기자는 보이스피싱 사기범이 피해자를 속이는 데 쓸 법한 문구를 작성해 봤습니다. "엄마! 나야." "아 이 번호 뭐냐고? 지금 스마트폰이 고장나서 친구한테 빌렸어."

"엄마, 나 할 말이 있어서 전화했어. 내가 빌린 돈을 빨리 갚아야 하는데, 지금 대출이 안 된대. 신용등급이 너무 낮대. 이거 지금 빨리 못 갚으면 안 되는데, 어떡하지?" "엄마, 미안한데 나한테 2000만원만 보내줄 수 있어?"

작성을 마친 뒤, 곧바로 AI에 텍스트를 읽도록 지시했습니다. 결과는 나쁘지 않았습니다. AI는 동료 기자의 목소리를 곧잘 흉내 내면서 텍스트를 읽어나갔습니다.

■ 과정 감정 싣기=하지만 이 정도로는 상대방이 속아 넘어갈 것 같지가 않았습니다. AI가 국어책 읽듯 텍스트를 읽어나갔기 때문입니다. 그럴 만합니다. 텍스트에는 어느 부분에서 어떤 감정을 실어야 할지 쓰여 있지 않으니까요.

물론 딥보이스의 기술력은 여기에 그치지 않습니다. 이번에는 기자가 텍스트를 직접 읽었습니다. 어머니와 전화 통화한다고 상상하면서 생동감 있게 글을 읽으려고 노력했죠. 그런 다음, 이 파일을 일레븐랩스에 업로드해 AI가 동료기자의 목소리로 이를 읽도록 지시했습니다. 기자가 AI에게 어떻게 목소리를 내야 할지 '가이드'를 준 셈입니다.

그 결과는 놀라웠습니다. AI는 동료 기자의 목소리로 기자가 읽은 음성 파일을 그대로 따라하기 시작했습니다. 목소리 높낮이는 물론이고, 천천히 읽어야 할 부분과 빨리 읽어야 할 부분을 구분했습니다. 누가 봐도 '큰 사고를 당해 겁에 질려 있는 아들의 목소리'였습니다. 변환 속도도 빨랐습니다.

전체 문장을 한 문장씩 끊어서 녹음해 보니, AI가 한 문장을 흉내 내기까진 2~3초밖에 걸리지 않았습니다. 이 정도면 피해자와 실시간으로 대화하는 게 충분히 가능해 보입니다. 별다른 기술이나 경험이 없는 기자가 만들어도 이 정도 결과물이 나오는데, 전문가가 손을 대면 어떤 일이 벌어질까요?

물론 AI가 100% 완벽하게 목소리를 재현하는 건 아닙니다. 집중해서 자세히 들으면 군데군데 'AI의 흔적'을 찾을 수 있습니다. 하지만 이것이 실제 상황이라면 어떨까요? 자신의 도움을 필요로 하는 아들의 다급한 목소리가 수화기 너머로 들렸을 때, 이를 '사기'라고 생각해 전화를 끊는 부모가 있을까요?

딥보이스 기술은 말에 담긴 감정까지 흉내 낼 수 있을 정도로 정교하다. 사진은 경찰청이 2022년 공개한 딥보이스 보이스피싱 예방 영상의 한 장면.[사진=경찰청 제공]

문제는 최근 딥보이스 기술력이 발전하면서 사기범이 악용할 가능성이 점점 더 높아지고 있다는 점입니다. 기자가 활용한 일레븐랩스는 1분 남짓의 샘플 파일을 요구했지만, 최근 딥보이스 기술은 5초만 녹음한 음성 파일로도 AI가 충분히 학습할 수 있습니다. AI가 음성 파일을 따라 읽는 데 걸리는 시간도 빠르게 줄고 있습니다.

어떤가요? 아직도 '우리 부모님은 보이스피싱에 절대 안 당해'라고 자신할 수 있나요? 이제 보이스피싱 사기범은 AI를 활용한 최신 기술까지 써서 우리를 속이려 하고 있습니다. 더 정교해지고 대범해진 딥보이스 보이스피싱의 덫, 이대로 두고만 봐도 괜찮은 걸까요.

이혁기 더스쿠프 기자
lhk@thescoop.co.kr

Copyright © 더스쿠프. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?