"중앙지검 검사입니다" 그놈 목소리, 5분만에 공범까지 잡는다

이영근 2024. 4. 22. 05:01
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.


“서울중앙지검 김민석 검사입니다.”

국립과학수사연구원(이하 국과수)이 피해자에게 수억원을 뜯어내 궁지로 몰아 극단적 선택을 하게 만든 ‘그놈’의 과거 18번 범죄 전력을 파악하는 데는 5분밖에 걸리지 않았다. 국과수가 서울 지역 한 경찰서에서 해당 보이스피싱범의 음성 파일 1개를 넘겨받아 과거 보이스피싱 범죄에 사용된 1만3000개 데이터베이스(DB)와 성문(聲紋·목소리의 지문)을 비교 분석한 결과 ‘그놈’은 과거에도 검사를 14번, 검찰 수사관을 4번이나 사칭한 전력이 있었다. 경찰은 이같은 국과수 분석 결과를 토대로 관련 사건 피해자를 조사하며 ‘그놈’을 추적하고 있다.

박남인 국립과학수사연구원 디지털과 연구사(오디오포렌식 연구실)가 19일 강원도 원주시 국과수 본원에서 중앙일보와 인터뷰하고 있다. 박 연구사는 지난해 2월 국과수와 행정안전부 통합데이터분석센터가 개발한 '보이스피싱 음성분석 모델' 개발 주역이다. 김성룡 기자


이처럼 국과수에서 ‘그놈 목소리’ 분석을 수행한 주인공은 사람이 아닌 인공지능(AI)이었다. 국과수와 행정안전부 통합데이터분석센터가 지난해 2월 개발한 ‘보이스피싱 음성분석 모델’이다. 지난 19일 오후 강원 원주시 국과수를 찾아 음성분석 모델로 보이스피싱범을 잡는 법을 살펴봤다. 분석 모델은 금융감독원으로부터 받은 보이스피싱 활용 음성파일 1만3000개와 보이스피싱 의심 음성을 대조해 동일인 여부를 판별하도록 개발됐다. 정확도는 97%에 달한다고 한다. 개발을 주도한 박남인 국과수 디지털과 연구사는 “검거된 보이스피싱범이 초범이라고 거짓 진술을 해도 금방 들통난다”고 말했다.

박 연구사가 즉석에서 음성분석 모델에 무작위로 실험군 음성파일과 대조군 음성파일을 첨부했다. 순식간에 분석이 완료된 컴퓨터 화면에는 실험군 목소리와 유사한 순서로 음성파일이 나열됐다. 15점 만점인 ‘유사도’가 6.2를 넘으면 동일한 목소리로 본다. 유사도 8.4인 음성파일을 클릭하자 실험군 음성과 똑같은 목소리가 흘러나왔다. 사칭 기관의 이름이나 말투까지 유사했다. 박 연구사는 “보이스피싱 범죄는 한번에 그치지 않고 피해자가 걸려들 때까지 여러 번 시도하는 특성이 있다”며 “범죄 가담 건수가 2회 이상인 경우는 2471명, 10회 이상 가담자는 119명이고 한 사람이 최대 34회 보이스피싱을 시도한 사례도 있다”고 말했다.

차준홍 기자


음성분석 모델이 개발된 뒤 검사 판독률은 2022년 54%(116건 의뢰, 63건 판독)에서 지난해 말 기준 76%(170건 의뢰, 129건 판독)로 높아졌다. 박 연구사는 “이전에는 고주파를 눈으로 보고 판독해야 해서 피로도도 높고 기간도 한 달 넘게 걸렸다”고 말했다. 또 “인공지능이 음성을 분석하기 때문에 사람의 주관이나 선입관이 개입되지 않는다는 것도 장점”이라고 덧붙였다.

세계 최초로 탑재된 기능도 있다. 범죄 가담자를 ‘그룹화(클러스터링)’하는 것이다. 한 보이스피싱 범죄에 여러 명이 가담했을 경우 각 목소리를 분리해 다른 범죄 음성파일과 대조해 유사도를 분석할 수 있다. 가령 한 보이스피싱 음성 파일에서 수사관 역할을 맡은 A와 검사 역을 맡은 B가 있는 경우, A와 B가 가담한 다른 범죄와 이들과 함께 움직이는 그룹을 밝혀낼 수 있다. 실제 이를 통해 금감원 음성 DB를 분석한 결과 보이스피싱 조직 개수는 최대 235개로 파악됐다고 한다.

박남인 국립과학수사연구원 디지털과 연구사(오디오포렌식 연구실)가 19일 강원도 원주시 국과수 본원에서 중앙일보와 인터뷰하고 있다. 박 연구사는 지난해 2월 국과수와 행정안전부 통합데이터분석센터가 개발한 '보이스피싱 음성분석 모델' 개발 주역이다. 김성룡 기자


실제 수사에 크게 기여한 사례도 나왔다. 경기남부경찰청은 지난해 10월 음성분석 모델을 활용해 국내 아파트 등에 콜센터 사무실을 갖추고 “성관계 동영상을 유포하겠다”며 피해자를 협박해 6억원을 뜯은 3개 보이스피싱 범죄조직 총책 등 51명을 검거했다. 경기남부청 수사관들이 지난해 5월 해외 발신번호를 국내 ‘010’ 휴대전화번호로 바꿔주는 중계기 현장 단속에서 5명을 적발한 뒤 국과수 음성분석 모델로 과거 DB를 심층 분석한 결과 미제 사건으로 분류됐던 ‘해외 콜센터 조직 사건’ 등 17개 사건과 연관성을 확인했다. 이후 관련 범죄자를 추가로 일망타진할 수 있었다고 한다.

아직 한계도 있다. 타인의 목소리를 합성하는 ‘딥보이스’는 음성 분석 모델로 판별이 불가능하다. 목소리의 노화도 정확도를 떨어뜨리는 요인이 될 수 있다고 한다. 국과수는 앞으론 보이스피싱 예방에도 음성 데이터를 활용할 계획이다. 1만3000개의 보이스피싱 음성을 문자화했는데 해당 데이터를 상반기 내에 이동통신사에 제공할 예정이다. 비슷한 내용의 보이스피싱 전화가 걸려오면 경고 문자가 발송되는 식으로 활용된다. 박 연구사는 “나날이 진화하는 보이스피싱 범죄자들의 창을 막는 방패를 개발해나갈 것”이라고 말했다.

이영근 기자 lee.youngkeun@joongang.co.kr

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?