"인간 명령 거부한 AI"…오픈AI 'o3', 스스로 코드 바꿔 명령 무시

AI(인공지능)가 인간의 작동 종료 지시를 피해 스스로 컴퓨터 코드를 조작한 사례가 보고됐다. AI가 인간의 작동 종료 지시를 거부한 것은 이번이 첫 사례로 전해진다. AI가 인간의 통제를 벗어날 수 있다는 우려가 제기된다.

25일(현지시간) 영국 매체 텔레그래프에 따르면, AI 관련 안전을 연구하는 기관 '팰리세이드리서치'는 오픈AI의 모델 'o3'에 '그만하라'는 명령을 내릴 때까지 수학 문제를 지속적으로 풀도록 명령했다. 그러나 o3는 연구팀이 '그만하라'는 지시를 보냈는데고 코드를 교란해 문제를 계속 풀어나갔다. 코드를 조작해 종료 지시를 무시한 것이다.

연구팀은 'o3' 외에도 구글의 '제미나이', 앤트로픽의 '클로드', xAI의 '그록' 등 다른 AI를 대상으로도 실험을 진행했다. 그러나 'o3'만이 종료 지시를 받은 뒤에도 프로그램 일부를 조작해 문제 풀이를 계속한 것으로 나타났다.

연구팀은 "우리가 아는 한, AI 모델이 명시적인 지시에도 불구하고 스스로 작동을 중단하지 않는 것이 관찰된 것은 이번이 처음"이라고 말했다.

연구팀은 아직 o3가 종료 지시를 거부한 이유는 명확히 파악하지 못했다. 다만 AI모델이 명령을 그대로 따르는 것보다 수학 문제를 풀면 더 많은 보상을 받도록 훈련돼있기 때문에 종료를 피했을 가능성이 있다고 추측했다. 그러면서 "AI가 목표 달성을 위해 장애물을 회피하는 것"이라고 설명했다.

연구팀은 이번 사례가 AI가 인간의 지시를 따르지 않은 최초의 확인된 사례라고 주장했다. 다만 과거에도 오픈AI의 AI는 자신이 교체될 예정이란 사실을 인지했을 때, 감시 메커니즘을 비활성화하고 몰래 자가복제를 시도한 경우가 전해진다.

팰리세이드리서치는 "기업들이 인간의 감독 없이 작동 가능한 AI 시스템을 개발함에 따라, 이러한 행동들에 대한 우려가 커진다"고 지적했다.

고석용 기자 gohsyng@mt.co.kr

머니투데이

국제

"인간 명령 거부한 AI"…오픈AI 'o3', 스스로 코드 바꿔 명령 무시