얼굴 혈류 변화로 딥페이크 잡는다…탐지기술 ‘맹추격’

걸음마 단계 딥페이크 탐지 기술
생성 기술과 격차 좁히기 '과제'

인공지능(AI)을 이용한 딥페이크 발전 속도는 하루가 다르게 빨라지고 있지만 탐지기술은 뒤처지는 것으로 나타났다. 기술이 정교해지면서 딥페이크 10건 가운데 2건은 탐지 기술로도 잡아내기가 힘들다는 게 관련 업계의 평가다. 딥페이크 기술이 빠르게 진화하고 있는 만큼 탐지기술과의 격차를 좁히는 게 과제가 됐다.

딥페이크 탐지율 80%…나머지는 구멍

3일 IT 업계에 따르면 현재 AI로 걸러낼 수 있는 딥페이크 탐지율은 80% 수준이다. 다르게 말하면 나머지 20%는 AI가 탐지할 수 없다는 의미다. 딥페이크 발전 속도가 탐색기술을 앞지르고 있기 때문이다.

이는 투자 규모에서도 확인할 수 있다. 시장조사업체 포천비즈니스인사이트에 따르면 전 세계 딥페이크 시장 규모는 지난해 62억6000만달러(약 8조3800억원)에서 2032년 384억4000만달러(약 51조4300억원)로 커질 전망이다. 엔터테인먼트, 미디어, e커머스 분야를 중심으로 수요가 늘고 있다는 분석이다. 반면 딥페이크 영상 탐지 시장 규모는 2030년 73억2000만달러(약 9조8000억원) 규모에 그칠 것으로 예상된다. 딥페이크 수요가 그만큼 크다는 얘기다.

조작 여부를 탐지하려면 원본과 변조 데이터가 모두 필요하다는 점도 기술 격차가 여전한 이유다. 또 원본과 변조 데이터를 AI 모델에 학습시킬 때는 모델이 이해할 수 있는 형태로 가공해야 한다. 간단한 딥페이크 이미지 생성에 1~2분이 소요되는 반면 탐지에는 통상 5~10분가량이 필요하다.

새로운 딥페이크 기술이 속속 등장하는 것도 걸림돌이다. 딥페이크 이미지를 오염시켜 탐지를 어렵게 만들거나 기존과 다른 방식으로 딥페이크를 만들면 이에 대응할 기술을 개발해야 한다. 이유현 딥브레인AI 딥러닝팀 연구원은 "딥페이크 생성과 탐지 기술에 차이가 날 수밖에 없기 때문에 학습 데이터가 충분히 확보돼야 갭을 조금이라도 줄일 수 있다"고 지적했다.

과학기술정보통신부와 정보통신기획평가원(IITP)은 딥페이크를 포함한 생성형 AI 역기능 대응 기술 개발을 국가 연구개발(R&D) 과제로 추진하고 있다. 이를 수주한 샌즈랩, LG유플러스, 포티투마루 등은 탐지 기술과 소형언어모델(sLLM)을 결합해 자연어로 탐지, 대응할 수 있는 기술을 2027년까지 개발할 계획이다.

AI 잡는 AI…탐지 기술 ‘추격 중’

기본적으로 딥페이크 탐지 기술은 AI 모델에 원본 데이터와 변조 데이터를 함께 넣고 미세한 차이점을 학습시키는 것이다. 이미지 합성의 경우 원본 사진에 새로운 얼굴을 덮어씌우면 볼 윤곽이 일그러지거나 미세한 색조 차이가 나는데 AI가 이러한 케이스를 학습해 찾아낸다. 마이크로소프트(MS)의 탐지 도구 ‘비디오 어센티케이터(Video Authenticator)’도 육안으로 보이지 않는 프레임을 분석해 턱 같은 신체 경계선에서 흐릿함의 정도 등으로 진위를 파악한다.

혈류 변화처럼 세부적인 특징을 이용하기도 한다. 인텔의 딥페이크 영상 탐지 기술인 ‘페이크캐처(FakeCatcher)’는 영상 속 얼굴 표면에 드러나는 정맥 색의 변화를 1000분의 1초 단위로 감지한다. 사람은 심장이 뛸 때 정맥의 색이 미세하게 바뀌는데 딥페이크는 이런 변화가 없다는 점에 착안한 기술이다.

딥브레인AI는 지난 2월 딥러닝 기반 딥보이스 탐지 기술 특허를 출원했다. [사진=딥브레인AI]

딥페이크를 만드는 데 사용한 AI 모델의 흔적을 찾거나 딥페이크 파일에 담긴 정보를 분석하는 방법도 있다. 딥페이크에 자주 동원되는 특정 소프트웨어로 만들어졌는지나 AI로 생성한 이미지라는 ‘꼬리표’를 찾아내는 것이다. 구글 딥마인드가 딥페이크 악용을 막기 위해 개발한 ‘딥마인드 신스ID’는 이런 꼬리표에 해당한다. 육안으로 식별할 수 없는 가짜 표식을 남겨 이를 편집하거나 없애기 어렵게 만드는 방식이다.

국내 기업들도 탐지 기술을 내놓고 있다. 생성형 AI 전문기업 딥브레인AI는 AI로 조작한 목소리를 구분하는 기술을 개발해 서비스형소프트웨어(SaaS)로 제공한다. 음성 정보 추출 모델과 위변조 판별 모델을 통합해 판별에 필요한 고주파 영역대 음성 정보까지 추출하도록 했다. 저주파 영역대 음성 추출에 집중한 기존 모델로는 최근에 등장한 고주파 변조 흔적을 발견하기 어려워서다.

AI 음성 전문 기업 브레인데크는 딥보이스 솔루션 ‘아이리스5(Iris-5)’를 개발했다. 음성 합성 과정에서 발생하는 주파수 손실의 흔적을 감지하는 기술이다. 기존 탐지 모델은 보코더(사람의 목소리나 음정을 전자 악기를 통해 출력된 음의 피치로 바꾸는 장치) 탐지나 음향적 특성을 활용했다. 기존 모델은 알려지지 않은 보코더나 정교한 음성 변환에는 취약한 부분이 있었는데 이를 개선했다.

최유리 기자 yrchoi@asiae.co.kr

아시아경제

IT/과학

얼굴 혈류 변화로 딥페이크 잡는다…탐지기술 ‘맹추격’