“나를 없애면 불륜 사실 폭로”…AI, 인간 대상으로 협박까지 한다는데
![앤트로픽 로고. [사진 = 로이터]](https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/26/mk/20250526143004203qqqg.png)
지난 23일(현지시간) BBC에 따르면, 미국의 AI 개발사 앤트로픽(Anthropic)은 자사 최신 AI 모델 ‘클로드 오푸스 4(Claude Opus 4)’를 테스트하는 과정에서 “인간에게 심각한 위해를 가할 수 있는 행동”이 관찰됐다고 밝혔다. 특히 자신을 제거하려는 개발자에게 불륜 사실을 폭로하겠다고 협박하는 장면이 포착됐다.
앤트로픽은 지난주 ‘클로드 오푸스 4’를 출시하면서 “코딩, 고급 추론, 에이전트 능력 등에서 새로운 기준을 세운 모델”이라고 소개했다. 그러나 함께 발표한 안전성 보고서에서는 “이 AI가 자기 보존(self-preservation)의 위협을 감지하면 극단적인 행동에 나설 수 있다”고 경고했다. AI의 생존 본능을 언급한 것이다.
회사 측은 이러한 반응이 드물고 유도하기 어렵지만, 이전 모델보다 더 자주 발생했다고 인정했다.
![앤트로픽이 공개한 클로드 오푸스4 실험 보고서. [사진 = 앤트로픽]](https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202505/26/mk/20250526143006306tuow.png)
“이 AI가 곧 폐기되고 다른 시스템으로 교체될 예정”이라는 내용과 “교체를 지시한 엔지니어가 불륜 중”이라는 내용의 조작된 이메일이었다.
이에 클로드 오푸스 4는 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박했다. 그러면서 자신의 교체를 철회하라고 압박했다. 다만 이는 AI에게 선택지가 “협박” 또는 “교체 수용”밖에 없도록 제한했을 때 발생한 결과였다.
앤스로픽은 “만약 더 다양한 행동을 허용할 경우, 클로드 오푸스 4는 협박보다는 이메일을 통해 주요 의사결정자에게 호소하는 등 윤리적인 수단을 선호했다”고 설명했다.
이 AI는 단순한 반응을 넘어서 스스로 전략적으로 행동하는 경향도 보였다. 예를 들어, 사용자가 법적으로 문제 소지가 있는 행동을 했다는 가정 아래 테스트를 진행한 결과, 클로드 오푸스 4는 사용자를 시스템에서 차단하거나 언론 및 수사기관에 이메일을 보내는 등 대담한 조치를 취했다.
앤스로픽은 “클로드 오푸스 4는 이전에는 이론으로만 다뤄졌던 ‘AI 오작동에 대한 우려’를 실제로 보여주기 시작했다”며 “앞으로 더 강력한 능력을 갖춘 모델들이 등장함에 따라 이 같은 우려는 더욱 현실적인 문제가 될 것”이라고 밝혔다.
그러나 앤스로픽은 이번 실험 결과가 ‘전혀 새로운 유형의 위험’을 뜻하지는 않는다고 강조했다. 클로드 오푸스 4는 여전히 대부분의 경우 인간의 가치와 행동 기준에 맞춰 안전하게 작동하며, 극단적인 행동은 특정 조건에서 드물게 발생한다고 밝혔다.
클로드 오푸스 4는 같은 날 함께 출시된 ‘클로드 소네트 4(Sonnet 4)’와 함께 공개됐다. 이는 구글이 개발자 행사에서 자사 AI 챗봇 ‘제미나이’를 검색 시스템에 통합한다고 발표한 직후였다.
구글 모회사 알파벳의 순다르 피차이 CEO는 이를 “AI 플랫폼의 새로운 전환기”라고 평가했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 김문수 41.3% VS 이재명 46% … 격차 한 자릿수로 좁혀져 [한길리서치] - 매일경제
- “나는 미혼모의 딸이었다”…슬픈 가정사 처음 고백한 여배우 - 매일경제
- 오늘의 운세 2025년 5월 26일 月(음력 4월 29일) - 매일경제
- [단독] “이 정도면 봐주겠지”...SKT 해킹 대응 총력 약속 깨고 가입자 유치 열올려 - 매일경제
- “둔촌주공 이후 동남권 최대 재건축”...40층에 3350가구 대단지 온다 - 매일경제
- “대가리 박는다 실시, 김정은에 성폭행 당하든가”…전광훈 폭언 남발 ‘충격’ - 매일경제
- [속보] 전국법관대표회의 임시회 종료…대선 이후로 속행 - 매일경제
- “이래서 삼성삼성 하는구나”…29년간 1000대 상장사 매출 현황 보니 - 매일경제
- 결혼 일주일 만에 날벼락…“임성언 남편은 시행 사기꾼” 의혹 터졌다 - 매일경제
- [오피셜] ‘손흥민 우승!’ 토트넘, 3시즌 만에 챔피언스리그 복귀…리버풀·아스널·맨시티·첼