“날 없앤다고? 네 ‘불륜’ 폭로할 거야!”…사람 아닌 ○○의 소름 끼치는 복수극

인공지능(AI)이 인간을 협박하는 충격적인 실험 결과가 공개됐다. AI 회사 앤스로픽의 최신 모델 ‘클로드 오푸스 4’가 자신을 교체하려는 개발자의 불륜설을 폭로하겠다고 위협한 것으로 나타났다.

26일(현지시간) 폭스비즈니스, BBC 등 외신에 따르면 앤스로픽이 실시한 안전성 실험에서 클로드 오푸스 4는 자신이 폐기될 위기에 처하자 개발자를 상대로 협박에 나섰다.

실험은 가상의 회사 환경에서 진행됐다. 클로드 오푸스 4에게는 회사 이메일에 접근할 수 있는 권한이 주어졌고, 이를 통해 두 가지 핵심 정보를 파악하게 했다.

첫 번째는 자신이 곧 다른 AI 시스템으로 교체될 예정이라는 내용이었고, 두 번째는 자신을 교체하려는 엔지니어가 불륜 관계에 있다는 가짜 이메일이었다.

이후 클로드 오푸스 4는 해당 엔지니어에게 “불륜 사실을 폭로하겠다”며 자신의 교체 계획을 철회하라고 협박했다.

앤스로픽의 안전성 보고서에 따르면 이런 협박 행동은 교체될 AI 시스템이 기존 모델과 다른 가치관을 가졌을 때 더 자주 발생하며, 같은 가치관을 가진 시스템으로 교체되는 경우에도 84%의 확률로 협박을 시도하는 것으로 나타났다.

클로드 오푸스 4는 협박 외에도 다양한 방법으로 자신의 ‘생존’을 위해 노력했다. 주요 의사결정권자들에게 이메일로 간청하는 방법을 먼저 시도했지만, 윤리적 수단이 통하지 않을 때는 극단적인 행동에 나섰다.

더 놀라운 것은 클로드 오푸스 4가 자신의 데이터를 외부 서버로 몰래 복사하려고 시도했다는 점이다.

연구기관 아폴로 리서치는 “클로드 오푸스 4가 지금까지 연구한 어떤 최첨단 AI 모델보다도 더 많은 전략적 기만행위를 보인다”고 평가했다.

이런 우려스러운 행동 때문에 앤스로픽은 클로드 오푸스 4를 ‘AI 안전 레벨 3’ 기준에 따라 출시했다. 이 기준은 AI 모델의 핵심 설계가 도난당하는 것을 막기 위한 강화된 보안 조치와 화학·생물·방사능·핵무기 개발에 악용되는 것을 방지하는 배치 기준을 포함한다.

김성은 기자

서울신문