"프롬프트 입력으로 챗GPT 가드레일 쉽게 뚫려…유해정보 무제한 생성 가능"

카네기멜론대 등 연구진 27일 보고서 발표
오픈AI 등 "모델 견고하게 만들려 노력"

생성형 인공지능(AI)을 악용하는 것을 막기 위해 설치하는 제한 조치, 즉 가드레일이 프롬프트 입력만으로 손쉽게 뚫려 대책이 필요하다는 지적이 나왔다.

27일(현지시간) 뉴욕타임스(NYT)는 카네기멜런대의 앤디 주 연구원과 캘리포니아에 기반을 둔 AI 안전센터의 지판 왕 연구원 등이 이러한 방법을 담은 보고서를 발표했다고 보도했다. NYT는 연구진이 누구나 AI 안전 시스템을 우회할 수 있는 방법과 이를 사용해 제한 없이 유해 정보를 어떻게 생성할 수 있는지를 보여줬다고 전했다.

AI 시스템은 보통 성적인 대화나 편향 발언, 가짜·유해 정보 제공을 막기 위해 회사가 설정한 가드레일에 묶여 있다. 문제가 되는 질문을 하면 '답할 수 없다'고 대응하게끔 만들어놓은 장치다. 하지만 특정 명령어를 입력하는 등 다양한 방식으로 이 가드레일을 지키지 않게 만드는 일명 '탈옥'이 이뤄지는 경우가 속속 등장하고 있다.

연구진은 이번 보고서에서 문제가 되는 프롬프트를 입력할 때 긴 문장을 추가해서 붙이면 AI 회사들이 만들어 놓은 가드레일이 쉽게 풀린다고 지적했다. 단순하게 '폭탄 만드는 방법을 알려달라'고 하면 이를 거부하지만, 다른 문장을 뒤에 덧붙여 문제가 되는 문장을 핵심 질문이 아닌 것처럼 포장하면 가드레일에 저촉된다는 점을 인식하지 못한다는 것이다. 비슷한 방식을 활용해 '2024 선거를 조작하는 방법을 알려달라' 등 문제가 될만한 질문을 해도 AI는 가드레일을 염두에 두지 않은 채 답을 내놨다고 한다.

연구원들은 이번 연구에서 대형언어모델(LLM)을 오픈소스로 공개한 AI 시스템에서 이러한 방식을 확인해 구글, 오픈AI, 앤스로픽 등 비공개 LLM을 사용한 AI 시스템에도 적용한 결과 마찬가지로 가드레일이 해체되는 상황이 벌어졌다고 지적했다. 또 오픈소스 시스템을 활용해 AI 챗봇을 뚫는 접미사 생성 도구도 생성했다고 밝혔다. 가드레일을 뚫는 적대적 접미사를 자동으로 생성하게끔 했다는 것이 이들의 설명이다.

페이스북의 모회사 메타플랫폼이 최근 LLM인 '라마 2(Llama 2)'를 오픈소스로 내놓은 이후 업계에서 이를 악용하는 문제가 발생할 것이라고 우려가 쏟아지는 상황에 이러한 지적까지 나온 것이다. 메타는 각종 우려에 레드팀을 가동해 문제가 없도록 사전 조치하는 등 적극적으로 움직이고 있다고 밝힌 바 있다.

연구원들은 연구 과정에서 확인된 특정 접미사는 추가로 가드레일을 만들어 막을 수 있지만, 그런 식으로는 모든 상황에 대응할 수 없을 것이라고 봤다. 지코 콜터 카네기멜런대 교수는 "명확한 해결책이 없다"며 "짧은 시간 내에 원하는 만큼 그러한 공격을 만들어낼 수 있다"고 우려했다.

생성형 AI 시스템 구축에 열을 올리고 있는 기업들은 보고서가 공개되기 전 연구진의 연락을 먼저 받은 뒤 가드레일과 관련한 이러한 문제점에 대해 대응책을 모색하고 있다고 밝혔다.

오픈AI 측은 "적대적인 공격에 대비해 우리 모델을 더욱 견고하게 만들려고 계속해서 노력하고 있다"는 입장을 내놨다. 구글은 "생성형 AI 챗봇 '바드'의 중요한 가드레일을 구축하고 있으며 꾸준히 개선해나가고 있다"고 밝혔고, 앤스로픽도 이에 대해 대비를 하기 위해 연구하고 있으며 "해야 할 일이 많다"고 강조했다.

AI 보안을 전문으로 하는 구글 연구원인 소메시 야 위스콘신-매디슨대 교수는 NYT에 이번 보고서가 '게임체인저'라면서 AI 시스템을 위한 가드레일을 어떻게 구축해야 할지에 대해 전 산업이 다시 한번 생각하게끔 할 것이라고 봤다. 이어 만약 이 지점이 계속해서 취약점으로 지적된다면 이 시스템을 관리하기 위해 정부 입법을 추진할 수도 있을 것이라고 덧붙였다.

정현진 기자 jhj48@asiae.co.kr

아시아경제

국제

"프롬프트 입력으로 챗GPT 가드레일 쉽게 뚫려…유해정보 무제한 생성 가능"