AI로 목소리 복제해 사람 속이는 건 쉬운 일… "강력한 안전장치 만들어야"

유진아 2025. 5. 29. 17:34
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

음성 AI 시장, 2030년 204억달러 전망
스타트업 투자 6배↑… 기술 상용화 본격화
기술 정교해질수록 소비자 피해도 커져
딥보이스 피해 442%↑… “기업 대응 시급”
생성형 AI가 생성한 이미지. 챗GPT 제공

음성 인공지능(AI) 시장 선점 경쟁이 치열해지고 있다. 주요 정보기술(IT) 기업들은 음성 명령을 자연스럽게 인식하고 응답하는 AI 기술 고도화에 속도를 내고 있다. 문장·이미지·음성을 동시에 이해하는 '멀티모달 AI' 시대가 본격화되면서 음성은 사용자와 인공지능을 가장 자연스럽게 연결하는 접점으로 주목받고 있기 때문이다.

하지만 기대만큼이나 부작용에 대한 우려도 커지고 있다. 기술이 정교해질수록 실제 사람의 목소리와 분간이 어려워 '딥보이스' 범죄가 늘어날 수 있어서다. 음성 AI로 생성된 딥보이스는 소비자가 개별적으로 대응하기 어려운 만큼 기술을 개발한 기업들이 보다 강력한 안전장치를 마련해야 한다는 지적이 나온다.

◇구글·오픈AI·메타 등 속속 진입= 29일 시장조사기관 마켓앤마켓에 따르면 음성 AI 시장 규모는 지난해 30억달러(약 4조1232억원)에서 오는 2030년 204억달러(약 28조377억원)로 성장할 전망이다.

스마트홈, 내비게이션, 고객센터, 웨어러블 기기 등 다양한 일상 영역에 음성 기반 서비스가 빠르게 확산하며 시장을 확대하고 있다. 기존의 텍스트 기반 인터페이스보다 진입장벽이 낮고 사용자와 기계 간 상호작용을 보다 직관적으로 만들 수 있기 때문이다.

시장 성장세에 발맞춰 글로벌 빅테크들의 진입도 가속화되고 있다. 구글은 자사 AI 모델에 '보이스 모드'를 통합했고 앤트로픽은 클로드 앱에 '음성 모드'를 탑재했다. 오픈AI는 2023년 '챗GPT 보이스 모드'를 공개한 데 이어 작년에는 한국어를 포함한 50개 이상의 언어를 인식하는 '어드밴스드 보이스 모드'를 선보였다. 메타도 "사용자들은 독립된 앱 내에서 음성 대화를 중심으로 설계된 개인적인 AI 경험을 선택할 수 있다"며 음성 중심의 '메타 AI'를 출시했다.

빅테크 뿐만 아니라 스타트업 사이에서도 음성 AI 시장에 대한 투자도 가속화되고 있다. 시장조사업체 CB인사이츠에 따르면 음성 AI 스타트업에 대한 글로벌 투자금은 2022년 3억1500만 달러에서 지난해 21억 달러로 약 6배 증가했다.

최병욱 고려대 AI연구소 교수는 "앞으로 음성 AI는 단순한 시장 확대를 넘어 일상 전반에 걸쳐 기본 인터페이스로 자리 잡을 것"이라며 "아직까지는 텍스트 기반 상호작용이 중심이지만 인간은 본래 텍스트보다 음성에 익숙한 존재이기 때문에 가까운 미래에는 음성이 거의 모든 영역에서 전면적인 인터페이스로 확산될 가능성이 높다"고 전망했다.

◇음성 AI 발전에 소비자 피해도 덩달아 '쑥'…"기업이 나서야"= 그러나 AI 음성에 대한 부작용에 대한 우려도 커지고 있다. 크라우드스트라이크 '2025 글로벌 위협 보고서'에 따르면 AI를 활용한 피싱·사칭 수법의 정교화로 인해 지난해 하반기 보이스피싱 사례는 상반기 대비 442%나 증가했다. 딥보이스를 활용한 사회공학적 공격이 실제로 사람을 속이고 금전 피해로 이어지는 사례가 급증하고 있는 것이다.

미국 연방수사국(FBI)도 AI로 합성된 고위 공직자의 음성과 영상을 활용한 피싱 범죄가 증가하고 있으며 고령층이 특히 취약하다며 경고하고 나섰다. 실제로 홍콩에서는 한 금융회사 직원은 본사의 최고재무책임자(CFO)와 동료 직원들의 얼굴과 목소리를 정교하게 복제한 딥페이크 영상에 속아 약 2억홍콩달러(약 350억6200만원)를 송금한 사례도 있었다.

소비자가 AI로 생성된 목소리나 영상을 육안이나 청각으로 구분하는 데는 한계가 있다는 지적도 나온다. 기술이 사람을 흉내 내는 수준을 넘어선 만큼 일반 이용자가 스스로 진위를 판별하기란 사실상 어렵다는 것이다.

최 교수는 "조금만 시간이 지나면 일상적인 대화와 AI가 생성한 음성의 차이를 소비자가 스스로 구분하긴 어려워질 것"이라며 "결국 기업들이 나서서 신뢰 가능한 AI 환경을 조성해야 한다"고 말했다.

기업들도 대응에 나서고 있다. LG유플러스는 이러한 위협에 대응하기 위해 AI 위조 음성을 탐지하는 '안티딥보이스' 기술을 개발했다. 실제 사람의 목소리와 AI가 생성한 딥보이스를 함께 학습시켜 발음의 미세한 부자연스러움이나 음성 주파수에서 나타나는 비정상 패턴을 AI가 판별할 수 있도록 구현한 것이다. LG유플러스에 따르면 자체 테스트 결과 해당 기술의 탐지 정확도는 약 95%에 달한다.

한영섭 LG유플러스 AI테크랩장은 지난 27일 열린 'ASC 2025 컨퍼런스'에서 "AI는 요리용 칼처럼 잘 쓰면 유용하지만 범죄에 악용되면 치명적 흉기가 될 수 있다"며 "현재 기술만으로도 가족의 목소리를 흉내 낸 짧은 음성만으로 사람들을 속일 수 있는 상황에 이르렀기 때문에 향후 몇 년 안에 우리가 소비하는 음성이나 영상 콘텐츠가 AI로 생성된 것인지 아닌지를 구분하는 일이 매우 중요해질 것"이라고 강조했다.

유진아기자 gnyu4@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.