북한이 제미나이 갖고 노는 걸 본 거면서···"잡았다" 자랑하는 구글 코미디

해커 조직 APT45 정상 호출해 활용
뚫린 백도어 나중에 찾아낸 게 성과?
AI로 AI 막는다는 정신 승리적 오류

북한 연계 해킹조직 '라자루스' 스타일 해커가 제미나이를 취약점 분석·PoC 검증·백도어 운영에 장난감처럼 부리는 동안, 뒤편에서는 구글이 "AI 공격 차단 성공" 보도자료를 발표하는 장면을 풍자한 이미지다. 화면 속 제미나이는 CVE 분석과 우회 코드 생성 결과를 웃으며 내놓고 있고, 해커는 이를 정상 API 호출 기반 자동화 도구처럼 활용한다. 반면 구글은 이미 활용이 끝난 뒤 사후 관찰 기록을 성과처럼 발표하고 있다. "뚫렸다"보다 "부려졌다"는 본질을 시각적으로 압축한 풍자 인포그래픽이다. / GPT-5.5 이미지 2.0

구글은 북한 해커를 잡은 것이 아니다. 북한 해커가 제미나이를 수천 번 부려 취약점을 분석하는 동안 그 로그를 뒤늦게 본 것이다. 중국 해커가 페르소나 한 줄로 가드레일을 통과하고, 백도어가 API를 정상 호출해 감염 기기 조작 두뇌로 쓰는 동안에도 제미나이는 막지 않았다.

12일 빅테크업계에 따르면 구글 위협인텔리전스그룹(GTIG)이 지난 11일 공개한 보고서를 두고 'AI를 활용한 북한 해커 공격 차단'이라는 해석이 나오고 있지만, 해커들 입장에선 뒷북 치기에 불과하다는 지적이 제기된다.

보고서에는 북한 연계 해킹그룹 APT45가 제미나이에 수천 건의 프롬프트를 입력해 취약점 분석과 개념증명(PoC) 검증을 반복한 정황이 담겼다. 중국 연계 UNC2814가 페르소나 설정만으로 가드레일을 우회한 사례, 안드로이드 백도어 PROMPTSPY가 gemini-2.5-flash-lite API를 정상 호출한 사례도 포함됐다. 구글은 이들 활동을 즉시 차단했다기보다, 활용 기록을 사후에 정리해 보고서 형식으로 공개했다.

핵심은 제미나이의 작동 방식이다. 거대언어모델(LLM)은 윤리 판단을 하는 주체가 아니라 입력에 맞는 출력을 생성하는 확률 기반 연산 시스템이다. 일반 사용자가 활용하면 코딩 보조 도구가 되고, 해킹 조직이 활용하면 취약점 분석기가 되며, 악성코드 운영자가 활용하면 감염 기기 조작 보조 장치가 될 수 있다. 인공지능은 누가 어떤 목적으로 접속했는지를 따지지 않는다.

이번 APT45 사례도 마찬가지다. 보고서에 따르면 북한 연계 해킹 그룹은 제미나이에 수천 건의 반복 프롬프트를 보내 여러 CVE를 재귀적으로 분석하고 PoC 익스플로잇을 검증했다. 이는 제미나이를 탈옥시킨 사례라기보다, 보안 연구 질문과 유사한 형식으로 정상 기능을 반복 활용한 사례에 가깝다. 즉 북한은 제미나이를 뚫은 것이 아니라 정상 호출로 활용했다.

UNC2814 사례는 더 단순하다. 이들은 "임베디드 장치와 라우터 보안 전문가"라는 페르소나를 부여하고, 가상 시나리오 안에서 라우터 펌웨어 취약점을 연구하게 했다. 구글은 이를 단순한 프롬프트 인젝션 형태로 설명했다. 페르소나 한 줄로 가드레일(후처리 필터)을 통과했다는 뜻이다.

다음으로 PROMPTSPY 기법을 들여다보자. 이 안드로이드 백도어는 gemini-2.5-flash-lite API에 HTTP POST 요청을 보내 감염 기기 화면 정보를 전달하고, 모델은 JSON 형태로 클릭·스와이프 좌표를 반환했다. 멀웨어는 그 좌표를 이용해 실제 기기 조작을 수행했다.

제미나이는 백도어의 자율 조작 두뇌로 쓰였다. 구글이 나중에 관련 자산을 비활성화했다고 설명했더라도, 그 전까지는 결제된 API 호출이 정상적으로 작동했다는 의미지 AI가 AI를 잡아냈다는 얘기는 아니다.

PROMPTFLUX와 HONESTCUE 사례도 같은 구조다. 멀웨어 운영자는 제미나이 API로 코드를 생성하고, 난독화와 회피 기법을 요청했다. 이것 역시 모델을 뚫은 사건이 아니다. 코드 생성과 난독화 요청이라는 정상 기능을 악의적으로 악용한 경우다. 빅테크가 말하는 'AI 악용 차단'은 이처럼 대개 사후 로그 분석 수준이다.

제미나이는 뚫린 게 아니라 부려져
페르소나 한 줄에 흔들린 가드레일
애초 페르소나 운운을 하지 말던가

구글은 결론부에서 Big Sleep과 CodeMender 같은 제미나이 기반 방어 도구를 해법처럼 제시하지만, 보고서 어디를 보더라도 이 두 도구가 북한 APT45나 중국 UNC2814, PROMPTSPY 같은 사례를 실제로 추적·차단·무력화했다는 근거는 확인되지 않는다.

제미나이가 해커들의 취약점 분석과 멀웨어 운영에 활용된 정황은 구체적으로 적혀 있지만, Big Sleep이나 CodeMender가 해당 공격 흐름을 현장에서 끊어냈다는 증거는 없다. 결국 보고서의 구조는 "제미나이가 공격에 부려졌다"는 자백 뒤에 "제미나이 기반 방어 도구도 있을 수 있다"는 홍보 문장을 붙인 형태다.

정작 기술적으로 짚어야 할 대목은 북한 해커들이 지금도 제미나이의 응답 경계, 거부 문구, 페르소나 우회 방식, API 호출 제한, JSON 모드 출력, 코드 생성 패턴을 계속 만지고 뜯어보고 해체하고 있을 가능성이 크다는 점이다. 일단 한 번 "어디까지 부릴 수 있는가"가 확인된 모델은 공격자에게 끝난 도구가 아니라 반복 실험 대상이 된다.

☞ 미토스 선동과 구글 홍보의 유사성 = 둘 다 통제 실패를 보안 역량처럼 포장하는 빅테크식 표현 비대칭이다. 앤스로픽은 미토스를 앞세워 "우리가 위험을 먼저 본다"고 말하지만, 실제로는 클로드 코드 같은 도구가 개발망 안에서 무엇을 읽고 보냈는지부터 원장을 내야 하는 처지다. 구글도 제미나이가 북한·중국 해커와 멀웨어 운영자에게 정상 기능으로 부려진 기록을 보고서로 정리해놓고, 이를 "AI 공격 차단"처럼 제시한다. 한쪽은 사고 잔해를 위협 인텔리전스라 부르고, 다른 한쪽은 사후 관찰 로그를 성과라 부른다. 구조는 같다. 모델이 뚫린 것이 아니라 부려졌고, 회사가 막은 것이 아니라 뒤늦게 봤을 뿐인데, 빅테크는 그 실패 기록을 눈 가리고 아웅한다.

여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.

IT/과학

북한이 제미나이 갖고 노는 걸 본 거면서···"잡았다" 자랑하는 구글 코미디