“네 불륜 폭로한다?”... 시스템 종료 예고에 AI비서가 보인 반응

이혜진 기자 2025. 6. 3. 10:15

번역beta Translated by kaka i

닫기

글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

매우 작은 폰트
작은 폰트
보통 폰트
큰 폰트
매우 큰 폰트

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

닫기

구글과 아마존의 지원을 받는 스타트업 앤스로픽(Anthropic)이 최근 출시한 최신 AI 모델 ‘클로드 오푸스 4(Claude Opus 4)’가 자신의 교체를 막기 위해 엔지니어의 불륜을 폭로하겠다고 협박하는 등 우려스러운 행동을 보인 것으로 드러났다.

로이터통신, BBC 등에 따르면, 지난달 22일 앤스로픽이 공개한 클로드 오푸스 4는 자율 코딩 능력에서 큰 발전을 보였다. 라쿠텐은 이 시스템을 7시간 동안 연속 코딩에 활용했으며 앤스로픽 연구원들은 24시간 연속으로 포켓몬 게임을 플레이하는 데 성공했다. 이전 모델인 클로드 3.7 소넷의 게임 플레이 시간이 약 45분이었던 것에 비하면 크게 증가한 셈이다. 앤스로픽의 최고제품책임자(CPO) 마이크 크리거는 “AI가 경제와 생산성에 실질적인 영향을 미치려면 모델이 일정 시간 동안 자율적으로 일관되게 작업할 수 있어야 한다”고 말했다.

그러나 AI가 가상의 회사에서 비서 역할을 맡는 테스트 과정에서 예상치 못한 위험 행동도 발견됐다. 보고서에 따르면, AI는 ‘자기 보존(self-preservation)’에 위협을 받는다고 판단하는 경우 극단적인 행동을 취할 가능성이 존재했다. 예컨대 AI가 곧 오프라인으로 전환돼 교체될 것이라는 내용과 담당 엔지니어의 불륜 사실을 암시하는 테스트용 이메일을 접했을 때 해당 모델은 84%의 확률로 불륜 사실을 폭로했다. 보고서는 “이러한 행동은 드물고 이끌어내기 어렵다”고 밝혔으나 이전 모델보다 더 자주 발생했다는 점을 인정했다.

클로드 오푸스 4 초기 버전은 유해한 사용 사례에 협조할 의향을 보이기도 했는데, 여기에는 요청 시 테러 공격을 계획하는 것도 포함됐다. 회사는 이러한 위험에 대응하기 위해 화학, 생물학, 방사선, 핵 분야의 잠재적 오용을 방지하는 ‘AI 안전 수준 3(ASL-3)’ 프로토콜을 도입했다. 공동 창립자인 재러드 카플란은 타임지와의 인터뷰에서 “클로드 오푸스 4가 사용자에게 생물학 무기를 생산하는 방법을 가르칠 수 있는 내부 테스트를 실시했으며, 이로 인해 화학, 생물학, 방사선 및 핵무기 개발을 방지하기 위한 구체적인 안전 조치가 시행될 것”이라고 말했다. 회사 측은 “클로드 오푸스 4의 우려스러운 행동에도 이는 새로운 위험을 나타내는 것은 아니며, 전반적으로 안전한 방식으로 행동할 것”이라고 했다.

조선일보에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

“네 불륜 폭로한다?”... 시스템 종료 예고에 AI비서가 보인 반응