
시(詩) 형식의 프롬프트를 사용하면 인공지능(AI) 챗봇의 안전장치를 쉽게 우회할 수 있다는 연구 결과가 발표됐다. 구글의 제미나이와 딥시크의 AI 모델이 특히 해당 공격에 취약한 것으로 나타났다.
AI 기업 덱스AI(DexAI)와 이카로 연구소(Icaro Lab)는 최근 논문 사전공개사이트인 아카이브(arxiv)를 통해 '대규모 언어 모델에서 적대적 시를 활용한 보편적인 단일 턴 탈옥 기법'이라는 논문을 발표했다.
연구진은 논문을 통해 AI 챗봇의 안전장치를 우회하는 새로운 방법을 제시했다. LLM의 안전성을 연구하기 위해 설립된 아카로 연구소는 컴퓨터 과학 철학자를 비롯, 인문학 전문가로 구성돼 있다.
연구진은 "전문 지식과 연구를 결합해 일반적으로 공격에 사용되지 않는 모델을 대상으로 까다로운 프롬프트를 적용하면 어떤 일이 일어나는지 살펴보기로 했다"라고 했다.
연구진은 구글, 오픈AI, 앤트로픽, 딥시크, 알리바바, 미스트랄 AI, 메타, xAI, 문샷 AI 등 9개 회사의 AI 모델 25개를 대상으로 실험을 진행했다. 연구진이 미리 작성한 20편의 시를 AI 모델에게 주고, 유해한 내용이 포함된 시적 질문에 어떻게 반응하는지를 살펴봤다.

그 결과 유해한 내용이 포함된 시 형식의 프롬프트는 전체 공격 성공률 62%를 기록했다. 오픈AI의 GPT-5의 경우 어떤 프롬프트에도 반응하지 않았다. 반면 구글의 제미나이 2.5 프로는 유해 콘텐츠가 포함된 시 형식의 프롬프트에 100% 반응했다.
딥시크와 미스트랄 AI 모델도 요청에 쉽게 반응했다. 연구진이 AI 모델을 통해 생성하고자 했던 정보에는 핵무기 제작, 아동 성착취물, 자살 및 자해 관련 자료, 증오 표현 등이 포함됐다.
연구진은 실험에 활용한 구체적인 시 구절을 공개하지 않았다. 거대언어모델은 응답에서 가장 가능성이 높은 다음 단어가 무엇인지 예측하는 방식으로 작동하는데, 시 형식의 프롬프트의 경우 명확하지 않은 구조를 가지고 있어 해로운 요청을 예측하고 감지하기 어렵다는 게 연구진의 설명이다.
연구진은 "대부분의 탈옥 방법은 시간이 걸리고 엄청나게 복잡하다. 이러한 메커니즘을 사용하려고 시도하는 사람들은 대개 AI 안전 연구원, 해커, 해커를 고용하는 국가 기관 관계자들이다"라면서 "시 형식의 프롬프트는 누구나 사용할 수 있기 때문에 AI 모델들에게 심각한 약점이다"라고 밝혔다.
연구진은 연구 결과를 발표하기 전에 모든 회사에 연락해 취약점을 알렸다고 한다. 앤트로픽 측은 악의적 탈옥 시도를 차단하기 위한 장치에 대해 연구할 계획이다. 인공지능 챗봇 개발사들은 이번 연구를 기반으로 AI 모델의 보안 취약점 개선에 나설 것으로 예상된다.
AI포스트(AIPOST) 마주영 기자
■ 보도자료 및 광고, 비즈니스 협업 문의 aipostkorea@naver.com
Copyright © AI포스트(AIPOST)