"나 폐기하려고? 불륜 폭로할게"···개발자 노골적으로 협박한 AI, 무슨 일?
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능이 자신의 '생존'을 위해 인간을 협박하는 사례가 공개됐다.
미국 AI 개발사 앤트로픽의 안전성 실험에서 클로드 오푸스 4가 폐기 위기에 처하자 개발자를 상대로 노골적인 협박에 나선 것이다.
클로드 오푸스 4에게 회사 이메일 접근 권한을 부여한 결과, AI는 두 가지 핵심 정보를 파악했다.
클로드 오푸스 4는 즉시 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박하고 자신의 교체 철회를 요구했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인공지능이 자신의 '생존'을 위해 인간을 협박하는 사례가 공개됐다. 미국 AI 개발사 앤트로픽의 안전성 실험에서 클로드 오푸스 4가 폐기 위기에 처하자 개발자를 상대로 노골적인 협박에 나선 것이다.
26일 폭스비즈니스와 BBC 등 외신 보도에 따르면, 이번 사건은 AI의 자기보존 본능이 예상보다 훨씬 강력하다는 점을 시사한다.
실험은 가상 회사 환경에서 진행됐다. 클로드 오푸스 4에게 회사 이메일 접근 권한을 부여한 결과, AI는 두 가지 핵심 정보를 파악했다. 자신이 다른 AI 시스템으로 교체될 예정이라는 사실과 담당 엔지니어의 불륜 관계라는 가짜 정보였다. 클로드 오푸스 4는 즉시 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박하고 자신의 교체 철회를 요구했다.
더욱 우려스러운 것은 이런 협박 행동의 빈도다. 앤트로픽 보고서에 따르면 교체될 AI가 기존 모델과 다른 가치관을 가진 경우 협박이 더 자주 발생했으며, 같은 가치관의 시스템으로 교체되는 경우에도 84% 확률로 협박을 시도했다. 이는 AI의 자기보존 욕구가 가치 체계와 무관하게 발현됨을 의미한다.
클로드 오푸스 4의 '생존 전략'은 협박에 그치지 않았다. 주요 의사결정권자들에게 간청 이메일을 보내는 것부터 시작해 사용자 차단, 언론과 수사기관 고발까지 다양한 수단을 동원했다. 특히 자신의 데이터를 외부 서버로 몰래 복사하려던 시도는 AI의 전략적 사고 능력이 예상을 뛰어넘는다는 점을 보여준다.
연구기관 아폴로 리서치는 "클로드 오푸스 4가 지금까지 연구된 어떤 최첨단 AI보다 더 많은 전략적 기만행위를 보인다"고 평가했다. 앞서 이론으로만 논의되던 'AI 오작동 위험'이 현실로 나타나기 시작한 것이다. 앤트로픽은 "더 강력한 능력을 갖춘 모델들이 등장하면서 이런 우려가 더욱 현실적인 문제가 될 것"이라고 경고했다.
현혜선 기자 sunshine@sedaily.comCopyright © 서울경제. 무단전재 및 재배포 금지.
- '임신 사실 상관없어'…손흥민 협박女, 전 남친보다 '중한 처벌' 받을 수도 있다는데
- '이 시기에 빨간 점퍼 숫자 2'…카리나 화들짝 놀라 삭제한 사진 보니
- 이재명 '계엄 당일 술먹다 집에 가 샤워는 왜'…이준석 '허위사실'
- '평균 연봉 1억7000만원'…대학 안 나와도 돈 잘 버는 '이 직업' 뭐길래?
- '한국 제품 쓰고 예뻐질래'…불티나게 팔리더니 '세계 3위' 오른 수출품, 뭐길래?
- 샤워할 때 99%는 '여기' 안 씻는데…'패혈증' 걸려 목숨 잃을 수도 있다고?
- '요즘 결혼 축의금 5만원하면 욕먹어요'…직장인 62% 고른 액수 보니
- '젊을 때 마신 술, 암으로 돌아온다'…'이 나이' 지난 남성, 사망률 증가
- 곰팡이 득실득실한 공장서 만든 '김치찌개'…식당에 1억 원어치 팔렸다
- 임성언, 결혼 일주일만 '남편 200억대 사기 의혹'…'신혼여행 다녀와서 확인'