AI가 사람 음성모방에 걸린 시간 단 15초… 더 정교한 ‘정치공작’ 위험성 우려

오픈AI, 신기술 ‘보이스 엔진’ 공개
딥 페이크 정교화… 악용 우려 커져
‘슈퍼 선거의 해’ 공작 고도화 우려
금융거래 ‘음성 인증’ 폐기 권고도

챗GPT를 통해 전 세계적인 인공지능(AI) 열풍을 일으키고 있는 오픈AI가 AI 기술로 사람의 목소리를 구현할 수 있는 도구를 개발해 공개했다. ‘딥 페이크’ 기술이 가지는 위험성이 점점 현실화되고 있는 가운데 AI 업계 선도기업이 내놓은 신기술로 우려가 더욱 커진다.

미국 뉴욕타임스(NYT) 등이 29일(현지시간) 보도한 내용에 따르면 오픈AI는 이날 자사 블로그에 ‘인조(Synthetic) 음성의 도전과 기회 탐색하기’란 제목으로 자사가 개발한 AI 도구인 ‘보이스 엔진’(Voice Engine)을 공개했다. 게시물에서 오픈AI는 15초 분량의 음성 샘플만 있으면 보이스 엔진을 이용해 원래 화자의 목소리와 비슷한 음성을 만들어 낼 수 있다고 밝혔다. 이어 2022년 말 처음 개발된 보이스 엔진이 챗GPT의 음성인식·읽어주기 기능과 텍스트-음성 변환 API(응용프로그램 인터페이스)에서 쓰이는 음성 기능 강화 등에 활용됐다고 설명했다. 오픈AI는 이 기술의 잠재적인 활용 가능성을 알아보기 위해 지난해 말부터 신뢰할 만한 소규모 그룹과 함께 비공개 테스트를 진행해왔다.

보이스 엔진으로 생성된 16초 분량의 음성도 함께 공개됐는데 AI가 샘플로 활용한 기존 음성과 거의 구분이 어려울 정도로 비슷했다. NYT는 “텍스트가 반드시 화자의 모국어일 필요는 없다. 예를 들어 영어 사용자의 목소리를 학습해 스페인어, 프랑스어, 중국어 또는 기타 여러 언어로 재현이 가능하다”고 보도했다.

이런 기능을 통해 어린이 교육을 위한 음성 해설 콘텐츠나 실시간 개인 맞춤형 응답 생성 기능, 동영상과 팟캐스트 같은 콘텐츠를 여러 언어로 번역해 전 세계에 서비스하는 등으로 활용 가능하다고 오픈AI는 설명했다.

다만, 아직은 신기술이 만들어낼 미래의 가능성보다는 우려가 더 크다. AI 기술을 활용해 영상과 음성 등을 생성하는 ‘딥 페이크’가 민주주의를 위협하는 위험 요소로 급격하게 떠오른 탓이다. 특히 2024년이 미국 대통령선거를 비롯해 전 세계에서 주요 선거가 펼쳐지는 ‘슈퍼 선거의 해’인지라 미지의 신기술이 유권자를 현혹해 선거를 혼탁하게 할 수 있다는 지적이 지속해서 나왔다.

이미 미국에서 지난 1월 AI로 생성된 음성이 선거 국면에 활용돼 일대 혼란이 빚어진 바 있다. 뉴햄프셔주 프라이머리(예비경선)를 하루 앞두고 조 바이든 대통령을 사칭한 가짜 전화가 주민들에게 걸려 와 투표 거부를 독려하는 사건이 벌어진 것. 민주당은 “바이든 대통령에게 상처를 주기 위해 누군가가 꾸민 짓”이라면서 강하게 반발했다.

세계 최정상의 AI 기술을 보유한 오픈AI가 내놓은 신기술로는 더욱 정교한 정치 공작이 이루어질 가능성이 크다. 이에 오픈AI는 “인조 음성 기능의 오용 가능성 때문에 더 광범위한 출시에 대해서는 조심스럽게 접근하고 있다”며 “현재로서는 이 기술을 미리 보여주기(preview)만 하되 널리 출시하지는 않기로 했다”고 밝혔다. 이어 “사람의 목소리를 닮은 음성을 생성하는 것은 심각한 위험을 야기하며, 선거가 있는 해에는 특히 더 그렇다는 것을 인지하고 있다”며 “우리는 미국과 해외의 정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 다양한 분야와 협력해 그들의 피드백을 반영하기 위해 노력하고 있다”고 다짐했다.

오픈AI는 “현재 보이스 엔진을 테스트 중인 파트너들은 당사자의 동의나 법적 권리 없이 개인이나 단체를 사칭하는 것을 금지하는 사용 정책에 동의했다. 보이스 엔진에서 생성된 모든 음성의 출처를 추적하기 위한 워터마킹 등 일련의 안전 조치도 구현했다”면서도 음성 생성 기술이 더 발달할 것을 대비해 은행 계좌나 그 밖의 민감한 정보에 접근 권한을 주는 보안 조치에 음성 기반 인증 방식을 폐지할 것을 권고하기도 했다.

이 기업은 지난 2월 동영상 생성 도구인 ‘소라’(Sora)를 공개할 때도 이번 보이스 엔진과 비슷한 신중한 접근 방식을 취한 바 있다. 이들은 “궁극적으로 우리가 이 기술을 널리 배포하든 그렇지 않든, 전 세계 사람들이 이 기술이 어디로 향하고 있는지 이해하는 것은 중요하다”며 “우리는 정책입안자와 연구자, 개발자 등과 함께 인조 음성의 도전과 기회에 대한 대화를 계속 이어나가기를 기대한다”고 덧붙였다.

서필웅 기자 seoseo@segye.com

세계일보

경제

AI가 사람 음성모방에 걸린 시간 단 15초… 더 정교한 ‘정치공작’ 위험성 우려