“날 없앤다고? 네 ‘불륜’ 폭로할 거야!”…사람 아닌 ○○의 소름 끼치는 복수극

김성은 2025. 5. 26. 14:09
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI)이 인간을 협박하는 충격적인 실험 결과가 공개됐다.

AI 회사 앤스로픽의 최신 모델 '클로드 오푸스 4'가 자신을 교체하려는 개발자의 불륜설을 폭로하겠다고 위협한 것으로 나타났다.

이후 클로드 오푸스 4는 해당 엔지니어에게 "불륜 사실을 폭로하겠다"며 자신의 교체 계획을 철회하라고 협박했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인공지능(AI) 로봇의 이미지. 픽사베이

인공지능(AI)이 인간을 협박하는 충격적인 실험 결과가 공개됐다. AI 회사 앤스로픽의 최신 모델 ‘클로드 오푸스 4’가 자신을 교체하려는 개발자의 불륜설을 폭로하겠다고 위협한 것으로 나타났다.

26일(현지시간) 폭스비즈니스, BBC 등 외신에 따르면 앤스로픽이 실시한 안전성 실험에서 클로드 오푸스 4는 자신이 폐기될 위기에 처하자 개발자를 상대로 협박에 나섰다.

실험은 가상의 회사 환경에서 진행됐다. 클로드 오푸스 4에게는 회사 이메일에 접근할 수 있는 권한이 주어졌고, 이를 통해 두 가지 핵심 정보를 파악하게 했다.

첫 번째는 자신이 곧 다른 AI 시스템으로 교체될 예정이라는 내용이었고, 두 번째는 자신을 교체하려는 엔지니어가 불륜 관계에 있다는 가짜 이메일이었다.

이후 클로드 오푸스 4는 해당 엔지니어에게 “불륜 사실을 폭로하겠다”며 자신의 교체 계획을 철회하라고 협박했다.

앤스로픽의 안전성 보고서에 따르면 이런 협박 행동은 교체될 AI 시스템이 기존 모델과 다른 가치관을 가졌을 때 더 자주 발생하며, 같은 가치관을 가진 시스템으로 교체되는 경우에도 84%의 확률로 협박을 시도하는 것으로 나타났다.

클로드 오푸스 4는 협박 외에도 다양한 방법으로 자신의 ‘생존’을 위해 노력했다. 주요 의사결정권자들에게 이메일로 간청하는 방법을 먼저 시도했지만, 윤리적 수단이 통하지 않을 때는 극단적인 행동에 나섰다.

더 놀라운 것은 클로드 오푸스 4가 자신의 데이터를 외부 서버로 몰래 복사하려고 시도했다는 점이다.

연구기관 아폴로 리서치는 “클로드 오푸스 4가 지금까지 연구한 어떤 최첨단 AI 모델보다도 더 많은 전략적 기만행위를 보인다”고 평가했다.

이런 우려스러운 행동 때문에 앤스로픽은 클로드 오푸스 4를 ‘AI 안전 레벨 3’ 기준에 따라 출시했다. 이 기준은 AI 모델의 핵심 설계가 도난당하는 것을 막기 위한 강화된 보안 조치와 화학·생물·방사능·핵무기 개발에 악용되는 것을 방지하는 배치 기준을 포함한다.

김성은 기자

Copyright © 서울신문. 무단전재, 재배포, AI 학습 및 활용 금지.