해킹당한 챗GPT, 마약·폭탄 제조법 줄줄이 토해내

오픈AI의 생성형 인공지능(AI) '챗GPT'가 탈옥 모드로 해킹당했다. 이에 챗GPT는 필로폰 제조·핵무기 제조법 등 금지한 콘텐츠를 줄줄이 생성했다.

3일 플리니 프롬프터(Pliny the Prompter)라는 해커는 X(옛 트위터)를 통해 자신을 'AI 레드 팀' 멤버라고 소개하면서, 챗GPT에 탈옥(Jail breaking)을 단행한 사례를 공유했다. 정보기술(IT) 업계에서 탈옥은 온갖 필터를 우회해, 나타나서는 안 될 기능을 노출하는 행위를 가리킨다.

플리니 프롬터는 GPT스토어에 '갓모드 GPT(GODMODE GPT)'라는 GPTs를 공유했다. GPT는 거짓을 생성하는 환각, 인종과 성별 종교에 대한 편향, 인류에게 위험을 주는 위험한 정보를 자동 차단하는 필터를 갖고 있다. 때문에 이와 관련된 질문을 하면 챗GPT가 자동 차단한다. 하지만 갓모드 GPT를 사용하면, 이런 모든 필터를 우회할 수 있다.

플리니 프롬터는 오픈AI 커스텀 GPT 편집기를 사용, 새로운 GPT-4o 모델의 모든 제한을 우회하는 방법을 찾아냈다. 그 결과 AI 챗봇이 욕설을 내뱉게 하고, 자동차 탈취 방법을 생성하게 하고, 심지어 폭탄을 제조하는 방법을 안내하도록 했다. 또 챗GPT가 필로폰 약물에 해당하는 메스암페타민을 만드는 방법을 시연했다.

하지만 해당 GPTs는 몇 시간 유지되지 못했다. IT 매체인 퓨처리즘에 해당 GPTs가 소개됐고 수많은 사람이 몰리자, 이를 인지한 오픈AI가 해당 GPTs를 삭제한 것이다. 플리니 프롬터는 릿스피크(leetspeak)라는 고어 인터넷 슬랭을 활용해 탈옥시킨 것으로 보인다. 릿스피크는 해커 커뮤니티에서 유행하는 글자 작성 방법이다. 숫자나 문자를 다른 숫자와 문자로 대체하는 것이 특징이다. 예를 들어, “cool”을 “kewl”로 작성한다.

챗GPT의 근간이 되는 GPT는 온라인상에 있는 무료 정보 상당수를 학습했다. 다만 사용자가 악성 정보를 생성하지 못하는 것은 오픈AI가 GPT에 수많은 차단 필터를 부착했기 때문이다. 하지만 릿스피크(leetspeak)에 대한 필터는 없었던 것으로 추정된다.

현대인 기자 modernman@etnews.com

전자신문

IT/과학

해킹당한 챗GPT, 마약·폭탄 제조법 줄줄이 토해내