AI에 '프락치' 심는다…거대언어모델 새 보안 위협 규명

KAIST

구글 제미나이 등 주요 상용 인공지능(AI) 거대언어모델(LLM)은 효율을 높이기 위해 여러 개의 작은 '전문가 AI' 모델을 상황에 따라 선택해 사용하는 '전문가 혼합(MoE)' 구조를 활용한다. 국내 연구팀이 MoE 구조의 취약점을 악용해 LLM 내부까지 접근하지 않고도 AI 안전성을 무너뜨리는 새로운 공격 기법을 규명했다.

KAIST는 신승원 전기및전자공학부 교수와 손수엘 전산학부 교수 공동연구팀이 MoE 구조를 악용해 안전성을 훼손하는 공격 기법을 처음 규명했다고 26일 밝혔다. 연구결과는 12일 미국 하와이에서 열린 정보보안 분야 국제학회 'ACSAC 2025'에서 발표돼 최우수논문상을 수상했다.

연구팀은 공격자가 LLM의 내부 구조에 직접 접근하지 않고 조작된 전문가 AI 모델 하나만 오픈소스로 유통돼도 전체 LLM이 의도하지 않은 유해 응답을 생성할 수 있다는 사실을 밝혀냈다. 정상적인 AI 전문가들 사이에 하나의 '악성 전문가'만 침투해도 전체 AI 안전성이 무너질 수 있다는 뜻이다.

KAIST 연구팀이 제안한 MoE 구조를 악용한 공격 기술 개념도. KAIST 제공

실험 결과 연구팀이 제안한 공격 기법은 LLM의 유해 응답 발생률을 0%에서 최대 80%까지 증가시켰다. 공격 과정에서 모델의 성능 저하는 거의 나타나지 않아 문제를 사전에 발견하기 어렵다는 것도 확인됐다.

이번 연구결과는 LLM 개발 환경에서 발생할 수 있는 새로운 보안 위협을 처음 제시한 것으로 평가된다. AI 내부 전문가 모델의 출처와 안전성 검증의 중요성을 강조한다.

신 교수와 손 교수는 "효율성을 위해 빠르게 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 이번 연구를 통해 실증적으로 확인했다"며 "AI 보안의 중요성을 국제적으로 인정받은 의미 있는 성과"라고 밝혔다.

<참고 자료>
- jaehanwork.github.io/files/moevil.pdf

왼쪽부터 송민규 KAIST 박사과정생, 김재한 박사과정생, 손수엘 교수. 우측 상단 왼쪽부터 신승원 교수, 나승호 책임연구원. KAIST 제공

[이병구 기자 2bottle9@donga.com]

동아사이언스

IT/과학

AI에 '프락치' 심는다…거대언어모델 새 보안 위협 규명