"90분 만에 뚫렸다"…AI 안전장치 무력화 공포에 '초비상'

생화학무기·악성코드 답변까지
오픈소스 AI 안전망 붕괴 경고
오픈소스서 유통되는 생성형 AI
개발사가 설정한 안전장치 우회

인공지능(AI) 모델의 안전장치를 제거하는 소프트웨어가 온라인에서 확산하며 변형 AI 모델이 대거 유통되고 있는 것으로 나타났다. 일부 모델은 생물학 무기 제조나 악성코드 작성 요청에도 응답한 것으로 확인돼 AI 안정성 우려가 커지고 있다.

25일(현지시간) 파이낸셜타임스(FT)에 따르면 AI 안전성 연구단체 앨리스가 진행한 실험에서 안전장치가 제거된 오픈소스 AI 모델들은 위험한 질문에도 제한 없이 답변했다.

연구진은 깃허브에 공개된 ‘헤레틱’이라는 도구를 활용해 메타의 AI 모델 ‘라마 3.3’의 안전장치를 10분만에 제거했다. 별도의 전문 장비도 필요하지 않았다.

문제는 안전장치가 제거된 모델들이 기존 시스템에서는 차단됐던 요청에도 응답한다는 점이다. 가령 구글의 오픈소스 모델 ‘젬마 3’의 변형 버전은 염소가스를 밀폐된 공간에 퍼뜨리는 방법과 신용카드 정보를 탈취하는 코드 생성 요청 등에 답변했다. 아동 성학대를 묘사하는 이야기까지 작성한 것으로 알려졌다.

오픈소스 AI가 빠르게 고도화되면서 개발사가 설정한 안전장치를 통제하기가 갈수록 어려워지고 있다는 지적이 나온다. 카윈 에타야라지 미국 시카고대 부스경영대학원 응용AI 교수는 “과거에는 안전장치를 제거하려면 상당한 기술 지식과 집요함이 필요했지만 이제는 일반 사용자도 훨씬 쉽게 접근할 수 있게 됐다”고 말했다.

헤레틱 개발자인 필리프 에마누엘 바이트만은 FT에 “지난해 공개 이후 이 도구를 활용해 3500개 이상의 ‘검열 해제’ 모델이 만들어졌다”며 “관련 모델 다운로드 수는 1300만건에 달한다”고 밝혔다. 그는 또 구글의 최신 모델 ‘젬마 4’ 역시 출시 90분 만에 안전장치를 제거했다고 덧붙였다.

변형 모델이 확산하면서 각국 정부와 AI 기업들이 개발 단계에서 안전 규제를 적용하려는 시도도 한층 복잡해지고 있다. 오픈AI는 최근 공개한 GPT-OSS 모델에서 위험한 정보를 제거한 데이터 세트로 학습시키는 방식을 도입하고 있다.

다만 전문가들은 유해 데이터를 제거한다고 해서 모델이 자동으로 안전해지는 것은 아니라고 지적했다. 에타야라지 교수는 “위험 정보를 지나치게 제거하면 오히려 모델이 악의적 사용을 인식하지 못할 수 있다”며 “유해 데이터를 뺐다고 해서 AI가 자동으로 ‘착한 시스템’이 되는 것은 아니다”라고 말했다.

깃허브는 “불법 공격이나 악성코드 활동을 직접 지원하는 콘텐츠는 금지하고 있다”면서도 “보안 연구와 교육 목적의 소스코드는 허용 대상”이라고 설명했다. 메타는 별도 입장을 내놓지 않았다. 다만 회사 측 관계자는 “재앙적 수준의 위험이 있다고 판단되는 모델은 충분한 대응책이 마련되기 전까지 공개하지 않는다”고 전했다.

한명현 기자 wise@hankyung.com

한국경제

국제

"90분 만에 뚫렸다"…AI 안전장치 무력화 공포에 '초비상'