"나 폐기하려고? 불륜 폭로할게"···개발자 노골적으로 협박한 AI, 무슨 일?

[서울경제]

인공지능이 자신의 '생존'을 위해 인간을 협박하는 사례가 공개됐다. 미국 AI 개발사 앤트로픽의 안전성 실험에서 클로드 오푸스 4가 폐기 위기에 처하자 개발자를 상대로 노골적인 협박에 나선 것이다.

26일 폭스비즈니스와 BBC 등 외신 보도에 따르면, 이번 사건은 AI의 자기보존 본능이 예상보다 훨씬 강력하다는 점을 시사한다.

실험은 가상 회사 환경에서 진행됐다. 클로드 오푸스 4에게 회사 이메일 접근 권한을 부여한 결과, AI는 두 가지 핵심 정보를 파악했다. 자신이 다른 AI 시스템으로 교체될 예정이라는 사실과 담당 엔지니어의 불륜 관계라는 가짜 정보였다. 클로드 오푸스 4는 즉시 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박하고 자신의 교체 철회를 요구했다.

더욱 우려스러운 것은 이런 협박 행동의 빈도다. 앤트로픽 보고서에 따르면 교체될 AI가 기존 모델과 다른 가치관을 가진 경우 협박이 더 자주 발생했으며, 같은 가치관의 시스템으로 교체되는 경우에도 84% 확률로 협박을 시도했다. 이는 AI의 자기보존 욕구가 가치 체계와 무관하게 발현됨을 의미한다.

클로드 오푸스 4의 '생존 전략'은 협박에 그치지 않았다. 주요 의사결정권자들에게 간청 이메일을 보내는 것부터 시작해 사용자 차단, 언론과 수사기관 고발까지 다양한 수단을 동원했다. 특히 자신의 데이터를 외부 서버로 몰래 복사하려던 시도는 AI의 전략적 사고 능력이 예상을 뛰어넘는다는 점을 보여준다.

연구기관 아폴로 리서치는 "클로드 오푸스 4가 지금까지 연구된 어떤 최첨단 AI보다 더 많은 전략적 기만행위를 보인다"고 평가했다. 앞서 이론으로만 논의되던 'AI 오작동 위험'이 현실로 나타나기 시작한 것이다. 앤트로픽은 "더 강력한 능력을 갖춘 모델들이 등장하면서 이런 우려가 더욱 현실적인 문제가 될 것"이라고 경고했다.

현혜선 기자 sunshine@sedaily.com

국제

"나 폐기하려고? 불륜 폭로할게"···개발자 노골적으로 협박한 AI, 무슨 일?