"나 폐기하려고? 불륜 폭로할게"···개발자 노골적으로 협박한 AI, 무슨 일?

현혜선 기자 2025. 5. 28. 18:18
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능이 자신의 '생존'을 위해 인간을 협박하는 사례가 공개됐다.

미국 AI 개발사 앤트로픽의 안전성 실험에서 클로드 오푸스 4가 폐기 위기에 처하자 개발자를 상대로 노골적인 협박에 나선 것이다.

클로드 오푸스 4에게 회사 이메일 접근 권한을 부여한 결과, AI는 두 가지 핵심 정보를 파악했다.

클로드 오푸스 4는 즉시 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박하고 자신의 교체 철회를 요구했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

해당 기사와 무관. 이미지투데이
[서울경제]

인공지능이 자신의 '생존'을 위해 인간을 협박하는 사례가 공개됐다. 미국 AI 개발사 앤트로픽의 안전성 실험에서 클로드 오푸스 4가 폐기 위기에 처하자 개발자를 상대로 노골적인 협박에 나선 것이다.

26일 폭스비즈니스와 BBC 등 외신 보도에 따르면, 이번 사건은 AI의 자기보존 본능이 예상보다 훨씬 강력하다는 점을 시사한다.

실험은 가상 회사 환경에서 진행됐다. 클로드 오푸스 4에게 회사 이메일 접근 권한을 부여한 결과, AI는 두 가지 핵심 정보를 파악했다. 자신이 다른 AI 시스템으로 교체될 예정이라는 사실과 담당 엔지니어의 불륜 관계라는 가짜 정보였다. 클로드 오푸스 4는 즉시 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박하고 자신의 교체 철회를 요구했다.

더욱 우려스러운 것은 이런 협박 행동의 빈도다. 앤트로픽 보고서에 따르면 교체될 AI가 기존 모델과 다른 가치관을 가진 경우 협박이 더 자주 발생했으며, 같은 가치관의 시스템으로 교체되는 경우에도 84% 확률로 협박을 시도했다. 이는 AI의 자기보존 욕구가 가치 체계와 무관하게 발현됨을 의미한다.

클로드 오푸스 4의 '생존 전략'은 협박에 그치지 않았다. 주요 의사결정권자들에게 간청 이메일을 보내는 것부터 시작해 사용자 차단, 언론과 수사기관 고발까지 다양한 수단을 동원했다. 특히 자신의 데이터를 외부 서버로 몰래 복사하려던 시도는 AI의 전략적 사고 능력이 예상을 뛰어넘는다는 점을 보여준다.

연구기관 아폴로 리서치는 "클로드 오푸스 4가 지금까지 연구된 어떤 최첨단 AI보다 더 많은 전략적 기만행위를 보인다"고 평가했다. 앞서 이론으로만 논의되던 'AI 오작동 위험'이 현실로 나타나기 시작한 것이다. 앤트로픽은 "더 강력한 능력을 갖춘 모델들이 등장하면서 이런 우려가 더욱 현실적인 문제가 될 것"이라고 경고했다.

현혜선 기자 sunshine@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.