"악성 전문가 1개면 LLM 안전성 붕괴"…'ACSAC 2025' 최고논문상

김건교 2025. 12. 26. 10:13
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

보도기사
"악성 전문가 1개면 LLM 안전성 붕괴"…'ACSAC 2025' 최고논문상

 연구 개념도(AI 생성 이미지)



구글 Gemini 등 주요 거대언어모델(LLM)이 효율 성을 높이기 위해 활용하는 전문가 혼합(MoE)구조가 오히려 새로운 보안 위협이 될 수 있다는 연구 결과가 나왔습니다.

KAIST 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조를 악용해 LLM의 안전성을 크게 훼손할 수 있는 공격 기법을 세계 최초로 규명했습니다.

이번 성과는 정보보안 분야 최고 권위 국제학회 중 하나인 ACSAC 2025에서 최우수논문상을 받았습니다. 올해 대회에서는 단 2편만이 최우수논문으로 선정됐습니다.

전문가 혼합 구조는 여러 개의 '작은 AI(전문가 모델)' 가운데 상황에 맞는 일부만 선택해 답변을 생성하는 방식입니다.

연구팀은 이 구조의 근본적인 보안 취약성을 체계적으로 분석했습니다.

특히 공격자가 거대언어모델의 내부 구조에 직접 접근하지 않더라도, 악의적으로 조작된 전문가 모델 하나만 오픈소스로 유통될 경우, 악성 전문가가 반복 선택되며 유해한 응답을 내도록 유도될 수 있음을 실험으로 입증했습니다.

실험 결과, 연구팀이 제안한 공격 기법은 유해 응답 발생률을 기존 0%에서 최대 80%까지 끌어올릴 수 있었고, 다수의 전문가 가운데 단 1개만 감염돼도 전체 모델의 안전성이 크게 떨어지는 것으로 나타났습니다.

특히 이 과정에서 성능 저하는 거의 없어 사전에 이상을 탐지하기 어렵다는 점도 위험 요소로 지적됐습니다.

연구팀은 이번 성과는 전 세계적으로 확산되고 있는 오픈소스 기반 거대언어모델 개발 환경에서 성능만 아니라 전문가 모델의 출처와 안전성 검증이 필수라는 점을 보여준다고 설명했습니다.

신승원·손수엘 교수는 "효율성을 위해 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 실증했다"며 "이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 의미 있는 성과"라고 말했습니다.

"악성 전문가 1개면 LLM 안전성 붕괴"…'ACSAC 2025' 최고논문상
(왼쪽부터) KAIST 송민규 박사과정, 김재한 박사과정, 손수엘 교수 (우상) 신승원 교수, 나승호 책임연구원


TJB 대전방송


(사진=KAIST)

김건교 취재 기자 | kkkim@tjb.co.kr

Copyright © TJB 대전방송