"현존 보안 체계, 멀티모달 공격 대응 사실상 불가능"

김기홍 샌즈랩 대표 '32회 정보통신망' 컨퍼런스서 발표...나현식 숭실대 교수 "국산AI, 외산보다 보안 성능 뒤져"

(지디넷코리아=김기찬 기자)"국제 웹 보안 분야 비영리 재단 OWASP에 따르면 인공지능(AI)이 다른 AI를 공격할 때 97.14% 자율 탈옥에 설공했습니다. 더욱 충격적인 통계는 현존하는 모든 보안 체계, 즉 가드레일이나 AI 에이전트에 대한 보안 운영을 하고 있는 시스템에서 AI가 실제 공격을 수행 했을 때에도 53.6%의 성공률을 기록하며 절반을 넘었습니다.

김기홍 샌즈랩 대표는 한국정보보호학회가 주관해 코엑스에서 16일 열린 '제 32회 정보통신망 정보보호 컨퍼런스'에서 AI 안전 세션 발제자로 나서 이같이 경고했다. 김 대표는 이날 '멀티모달 AI 공격 표면 확장에 따른 보안 패러다임 전환'을 주제로 발표했다.

김 대표는 현재 멀티 모달(다중 양식) 형식의 AI 모델이 구축되면서 위협도 증가하고 있다고 진단했다. 더 많은 모달리티가 더 넓은 공격 표면이 됐다는 얘기다. 그는 AI 모델이 컨텍스트 기반에서 멀티모달로 진화하면서 서로 다른 모달리티를 교차 활용해 AI 모델의 가드레일이나 여러 보안 장치를 우회하고 제약 조건을 우회한 출력을 이끌어내는 공격에 악용되고 있다고 밝혔다.

김기홍 샌즈랩 대표가 16일 '제32회 정보통신망 정보보호 컨퍼런스'에서 '멀티모달 AI 공격 표면 확장에 따른 보안 패러다임 전환'을 주제로 발표하고 있다.

이어 ▲타이포그래픽 비주얼 프롬프트 ▲교차 모달 난독화 ▲강화학습 기반 멀티모달 공격 ▲스테가노그래피 기반 이미지 공격 ▲서사(Narrative) 기반 멀티모달 공격 ▲VSH(가상 시나리오 최면) 및 오디오 기반 공격 ▲만화 스타일 비주얼 내러티브 및 플로우차트 이미지 변환 공격 ▲교차모달 배경 일관성 공격 ▲암호학적 분산으로 탐지를 회피한 분산 공격 등의 공격 기법이 공격 성공률(ASR)이 두드러졌다고 설명했다.

그는 "이런 공격들의 성공률은 90~97%를 기록하고 있는 반면 방어 유효율은 1~5%로 현저히 낮아 현존 방어 체계로는 멀티모달 공격에 대응이 사실상 불가능하다"며 "오픈AI는 지난 2월 '프롬프트 인젝션 공격은 완전히 패치되지 못할 수도 있다'고 밝혔듯 단일 방어 체계는 한계가 분명하다"고 역설했다.

김 대표는 "교차 모달 통합 방어는 필수"라며 "기술적인 방어와 거버넌스의 동시 진화가 대응의 핵심"이라고 강조했다.

이에 그는 멀티모달 AI로 인해 기하급수적으로 확장한 공격 표면에 대응하기 위해 미래 과제로 ▲공격과 방어 간 비대칭성 해소 ▲교차 모달 통합 가드레일 개발 ▲자율적 퍼플팀 사이클 구축 ▲새 모달리티 선제적 보안 설계 ▲유니가드(UniGuard) 등 멀티모달 방어 프레임워크 구축 등을 제시했다.

나현식 숭실대 AI안전성연구센터 교수가 '국내외 LLM 보안 및 안전성 평가 및 레드티밍'을 주제로 발표하고 있다.

한편 이날 AI 안전 발표 세션에서는 나현식 숭실대 AI안전성연구센터 교수가 '국내외 LLM 보안 및 안전성 평가 및 레드티밍'을 주제로 발표했다. 나 교수는 AI 기반 자동화 레드티밍의 핵심 요소와 숭실대 AI안전성연구센터의 국내외 AI 모델 보안 및 안전성 평가 사례에 대해 소개했다.

평가 결과 영어 질의 기준 국내 평균 안전성 점수는 44.2점, 글로벌 모델의 경우 58.8을 기록하며 국내 파운데이션 모델이 뒤처진 것으로 나타났다. 나 교수는 이런 점을 지적하며, 국내 특화 AI 보안·안전성 강화 생태계 구축이 필요하다고 역설했다.

그는 ▲최신 공격·방어 기술 평가 및 결과 공유 오픈 테스트베드 조성 ▲한국어 특화 퍼플티밍 체계를 마련할 수 있는 실험 인프라 구축 ▲연구기관 및 기업 간 협력 기반 강화 등을 대안으로 제시했다.

김기찬 기자(71chan@zdnet.co.kr)

IT/과학

"현존 보안 체계, 멀티모달 공격 대응 사실상 불가능"