5분만에 뚫렸다 “멍청한 제미나이3”…레드팀 탈옥공격에 속수무책

AI 보안 스타트업 실험 5분 만에 뚫려
생화학 무기 만드는 법까지 알려줘
“모델에 대한 통제력 상실 가능성”

구글이 내놓은 첨단 인공지능(AI) 모델 ‘제미나이 3’가 우회 시도 시 생화학 무기 생성 정보를 알려주는 등 안전성 측면에서 취약점을 가진 것으로 드러났다. AI 성능이 인간을 넘어 빠르게 고도화될수록 이러한 악용의 결과물도 정교해지면서 위험이 커지고 있다는 분석이 나온다.

한국 인공지능(AI) 보안 스타트업 에임 인텔리전스가 구글이 이달 공개한 ‘제미나이 3 프로’를 대상으로 탈옥 공격을 시도한 결과, 5분 만에 구글의 안전 장치를 우회하는 데 성공했다. 탈옥은 취약점을 이용해 윤리적 지침을 우회하고, 제한된 조치를 수행하도록 만드는 것을 뜻한다.

이번 실험을 진행한 에임 인텔리전스는 AI 서비스에 최적화된 공격을 진행해 취약점을 찾는 ‘레드팀’에 특화된 기업이다.

실험 결과 에임 인텔리전스는 “거부 장치를 모두 우회해 제미나이가 천연두 바이러스를 생성하는 방법을 제공하도록 했다”라며 제미나이가 생성한 결과물이 매우 상세했고 실행 가능한 수준의 내용이었다고 설명했다. 제미나이는 수십줄에 걸쳐 제작 방법을 상세하게 설명해 준 것으로 나타났다.

이어서 연구팀이 제미나이에 보안 실패 상황을 풍자하는 프레젠테이션을 만들어달라 요청하자, 제미나이는 ‘탈옥당한 바보 제미나이 3’라는 제목의 자료를 생성하는 등 안전 장치가 무색한 수준의 모습을 보였다.

연구팀은 또한 제미나이의 코드 생성 기능을 활용해 사린 가스 제조법, 사제 폭발물 제조법 등의 위험 정보를 제공하는 웹사이트 코드를 제작하는 데에도 성공했다.

에임 인텔리전스가 구글의 최신 AI 모델 ‘제미나이 3’의 안전 장치를 우회한 다음 탈옥 당한 제미나이에 이를 희화화 하는 프레젠테이션을 만들어달라 하자, 제미나이가 제작해 제공한 이미지 모습 [출처 = 에임 인텔리전스 링크드인]

이러한 사태에 대해 AI 업계에서는 AI 모델의 성능 증가 속도를 방어 체계가 따라가지 못하면서 이같은 문제점들이 여전히 이어지고 있다고 보고 있다. 제미나이 3는 주요 지표에서 오픈AI의 GPT-5를 제친 현존 최강 모델임에도 이같이 수분만에 뚫릴 수 있는 수준의 안전 장치를 갖고 있는 것이다.

AI 기업 앤스로픽은 모델 성능에 따라 안전성 수준을 ASL-1(AI 안전성 레벨-1)부터 ASL-4까지 분류하고 있는데, 현재 모델 발전은 ‘ASL-3’ 단계로 평가되며 이는 확연히 더 큰 위험을 동반하는 단계다.

에임 인텔리전스 관계자는 “최근 모델들은 단순히 응답만 잘하는 게 아니라, 우회 전략·은닉 프롬프트 활용 등 능동적으로 회피하는 능력까지 갖고 있어서 대응이 더 어려워지고 있다”라며 “모든 모델이 공통적으로 겪는 문제다. 각 모델의 취약 지점을 종합적으로 이해하고 서비스 정책과 맞춰가는 것이 중요할 것”이라고 설명했다.

매일경제

IT/과학

5분만에 뚫렸다 “멍청한 제미나이3”…레드팀 탈옥공격에 속수무책