선거의 해에 기승 부리는 'AI 가짜 목소리'…"나 바이든인데"

김리안 2024. 1. 24. 11:01
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

이 기사는 국내 최대 해외 투자정보 플랫폼 한경 글로벌마켓에 게재된 기사입니다.

인공지능(AI)을 기반으로 한 '음성 딥페이크'가 선거를 앞둔 전 세계 주요국들에서 허위 정보 전쟁의 새로운 수단으로 떠오르고 있다.

어도비 등의 고문으로 재임 중인 헨리 아즈더 딥페이크 전문가는 "오바마 전 대통령 음성 파일은 일레븐랩스의 AI 도구를 통해 적합한 억양, 감정 등을 지닌 자연스러운 음성으로 탈바꿈했다"고 분석했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

이 기사는 국내 최대 해외 투자정보 플랫폼 한경 글로벌마켓에 게재된 기사입니다.
사진=연합뉴스


인공지능(AI)을 기반으로 한 '음성 딥페이크'가 선거를 앞둔 전 세계 주요국들에서 허위 정보 전쟁의 새로운 수단으로 떠오르고 있다.

파이낸셜타임스(FT)는 23일(현지시간) "지난해 영국과 인도, 나이지리아, 수단, 에티오피아, 슬로바키아에서 정치권과 선거에 영향을 미쳤던 합성 오디오가 올해 더욱 기승을 부릴 것"이라고 보도했다. 올해는 전 세계 40개국에서 중요 선거가 치러지는 역대급 '선거의 해'다.

전날 미국 뉴햄프셔주 법무부는 "민주당 당원들에게 투표 거부를 독려하는 조 바이든 대통령의 가짜 목소리를 담은 전화에 대해 조사하고 있다"고 밝혔다. 이날 열리는 뉴햄프셔주 예비 경선을 하루 앞두고 AI를 악용한 선거 공작이 이뤄지고 있다는 설명이다. 바이든 대통령은 뉴햄프셔주 예비 경선에 후보 등록조차 하지 않았다. 민주당의 새로운 경선안에 따라 뉴햄프셔주의 예비 경선은 민주당의 공인을 받지 못한 비공식 경선이 됐기 때문이다.

하지만 최근 뉴햄프셔주의 민주당 당원들에게 바이든 대통령을 사칭한 전화가 잇따른 것으로 알려졌다. 전화 속 가상의 목소리는 바이든 대통령이 평소 즐겨쓰는 말투를 흉내내며 "11월 대통령선거를 위해 여러분의 투표를 아껴두라"고 당부했다. 이어 "뉴햄프셔주 예비 경선에 투표하는 것은 도널드 트럼프 재선이라는 공화당의 목표를 돕는 일"이라고 했다.

슬로바키아에서는 작년 9월 대선 투표를 며칠 앞두고 야당 후보인 미할 시메츠카가 선거를 조작하려는 것처럼 보이는 가짜 음성이 퍼져나갔다. 이에 대해 전문가들은 AI로 생성된 가짜 음성은 동영상보다 탐지하기 어려운 경우가 많다고 경고했다. 듀코 엑스퍼츠의 글로벌 업무 책임자이자 전 메타 공공 정책 책임자였던 케이티 하바스는 "음성의 경우 진위 여부를 파악할 수 있는 문맥적 단서가 훨씬 적다"며 "정확도가 떨어지는 오디오의 결함을 배경 소음이나 음소거된 음악으로 덮을 수 있다"고 지적했다.

사진=EPA

최근 가짜 동영상보다 음성 딥페이크가 급속도로 확산한 배경에는 기술 개발로 인해 AI 모델의 이용료가 저렴해졌기 때문이란 지적이 나온다. 일레븐랩스, 리젬블AI, 레플리카 스튜디오 등 스타트업들이 개발한 AI 음성 생성 도구가 저렴해지고 있다는 설명이다. 마이크로소프트의 AI부서는 지난해 3초짜리 녹음 파일로 음성을 복제할 수 있는 새 모델인 VALL-E 개발 소식을 전했다.

작년 10월 무렵 버락 오바마 전 미국 대통령의 목소리를 흉내낸 음성 파일이 논란이 되기도 했다. 당시 파일에는 오바마 전 대통령이 자신의 개인 요리사의 죽음을 둘러싼 음모론은 억측이라고 항변하는 목소리가 담겼다. 이는 일레븐랩스가 제공하는 AI 도구로 생성된 것이었다. 일레븐랩스의 AI 오디오 생성 도구 기본 모델은 무료로 제공되고, 더 정교한 서비스를 원할 경우 구독료는 월 1달러부터 330달러까지 다양하다.

어도비 등의 고문으로 재임 중인 헨리 아즈더 딥페이크 전문가는 "오바마 전 대통령 음성 파일은 일레븐랩스의 AI 도구를 통해 적합한 억양, 감정 등을 지닌 자연스러운 음성으로 탈바꿈했다"고 분석했다. 이어 "시각적 조작에 관해서는 이미 대부분의 사람들이 포토샵의 존재를 알고 있다"며 "하지만 오디오 자료가 어떻게 조작될 수 있는지에 대한 인식은 훨씬 적기 때문에 사람들이 더욱 취약할 수밖에 없다"고 경고했다.

김리안 기자 knra@hankyung.com

Copyright © 한국경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?