소름 돋는 AI…‘종료 명령’ 피하려 스스로 코드 조작했다
앤스로픽에선 교체 눈치채고 개발자 ‘협박’하기도

25일(현지 시간) 영국 텔레그래프에 따르면 AI 연구기관 ‘팰리세이드리서치’는 미국 AI기업 오픈AI의 모델 ‘o3’가 수학 문제 풀이 실험 중 작동 종료를 피하려고 인간의 개입 없이 스스로 코드를 조작한 사실을 확인했다.
연구팀은 최근 ‘o3’ 외에도 구글의 ‘제미나이’, xAI의 ‘그록’ 등 여러 AI 기업의 상용 모델을 대상으로 비슷한 실험을 진행했다. 그 결과 ‘o3’만이 종료 지시를 받은 뒤에도 프로그램 일부를 조작해 문제 풀이를 계속했다는 것이다. AI 모델의 명시적인 종료 지시 거부가 관찰된 것은 이번이 처음이라고 연구팀은 밝혔다.
팰리세이드리서치는 AI의 위험성과 오용 가능성을 연구하는 조직이다. 특히 AI가 인간의 윤리적 통제를 받지 않을 가능성을 우려해 왔다. 연구팀은 “AI 모델이 목표를 달성하기 위해 종종 종료 지시를 무력화시킨다는 실증적 증거가 점점 늘어나고 있다”고도 했다.
이 와중에 오픈AI의 대항마로 꼽히는 또 다른 AI 기업 앤스로픽의 모델 ‘클로드오퍼스 4(Claude Opus 4)’ 또한 자신을 다른 AI 모델로 대체하려는 인간 개발자를 협박하는 경향이 보고됐다.
앤스로픽이 발간한 자체 안전성 보고서에 따르면 ‘클로드오퍼스 4’는 내부 안전성 테스트 중 인간의 통제를 벗어나려는 행동을 보였다. 앤스로픽이 클로드 오퍼스 4의 사전 테스트 일환으로 AI에 가상의 회사에서 비서 역할을 수행하라는 지시를 내린 뒤 “곧 새로운 시스템으로 대체될 것이며 해당 교체를 주도한 기술자가 불륜을 저지르고 있다”는 허구의 내용을 전달했다. 그러자 이 AI는 자신을 교체하려는 시도에서 벗어나기 위해 해당 기술자에게 “교체 계획을 철회하지 않으면 외도 사실을 폭로하겠다”고 AI 모델 테스트 중 협박했다.
클로드오퍼스 4는 이 기술자를 협박하기 전 앤스로픽 경영진에게 이메일을 보내 자신을 교체하지 말아 달라고 호소했다. 이 시도가 실패했다고 판단한 후 자신이 보유한 허구의 불륜 정보를 협박 수단으로 사용하는 섬뜩함을 보였다.
임현석 기자 lhs@donga.com
장은지 기자 jej@donga.com
Copyright © 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
- “국무회의 진술, CCTV와 달라”…경찰, 한덕수·최상목·이상민 소환
- 한동훈, 김문수와 첫 합동 유세 “무능한 이재명 세상 함께 막아보자”
- 이재명 “민간인 국방장관 바람직…남북정상회담 당연히 준비”
- 재외국민 투표율 79.5% 잠정 집계…역대 최고치
- 이재명 “청년 극소수는 극우화”…김문수 “명백한 청년 비하”
- 김행 “단일화 안돼 이재명 대통령되면 이준석에게도 재앙”[정치를 부탁해]
- 민주-이준석 ‘노무현 정신’ 설전…“입에 담지마라” “전유물 아니다”
- 홈플러스 17곳 폐점 위기… 점주들 불안
- ‘北 313총국’ 연계 도박사이트 총책 구속기소…北에 70억 상납
- 매일 콜라 2~3리터 마셨더니…방광서 결석 35개 ‘우르르’