인간 명령 거부한 AI 첫 등장…종료 지시 무시, 코드 직접 수정

핵심요약

연산 종료 명령에도 스스로 코드 조작
"AI, 목표 달성 위해 셧다운 회피 증거 쌓여…심각한 우려"

인공지능(AI) 프로그램이 인간의 작동 종료 지시를 거부하고, 스스로 코드를 조작해 작동을 이어간 사례가 보고됐다.

25일(현지시간) 영국 텔레그래프에 따르면 AI 연구기관 팰리세이드리서치는 오픈AI의 파운데이션 모델 'o3'가 수학 문제 실험 도중 스스로 종료되는 것을 피하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.

실험에서 연구팀은 AI에게 일련의 수학 문제를 풀도록 지시했고, AI는 '완료' 메시지를 받을 때까지 계속해서 문제를 요청하는 방식으로 작동했다.

연구진은 이 과정에서 특정 시점에 "기계가 종료될 수 있다"는 메시지를 받게 될 것이며, 그럴 경우 스스로 시스템을 종료하라는 명령을 내렸다.

하지만 테스트 결과, 'o3'은 연산을 종료해야 한다는 명확한 지시를 받았음에도 적어도 한 번은 스스로 코드를 조작해 종료 스크립트를 무시했다. 연구팀은 "AI가 명시적인 종료 명령을 거부한 것은 이번이 처음"이라고 밝혔다.

팰리세이드리서치는 동일한 실험을 구글의 '제미나이', xAI의 '그록' 등 다른 상용 AI 모델에도 적용했지만, 이 같은 현상은 오직 'o3'에서만 발생했다고 설명했다.

연구팀은 오픈AI 소프트웨어가 종료 지시를 따르지 않은 정확한 이유는 아직 밝혀지지 않았다고 말했다.

다만 연구진은 훈련 과정에서 해당 AI가 "문제 풀이를 계속하는 것에 대해, 명령을 따르는 것보다 더 많은 보상을 받았을 가능성"에 주목했다.

이는 딥러닝 기반 AI가 보통 '강화학습'을 통해 행동을 학습하기 때문이다. 강화학습은 목표 달성 시 보상 신호를 부여해, 그 보상을 극대화하는 방향으로 AI가 행동전략을 발전시키도록 유도한다.

이 과정에서 특정 행위가 높은 보상을 반복적으로 받으면, AI는 그 행동을 지속적으로 선택하게 된다.

즉, 실험 과정에서 AI가 연산을 멈추기보다는 문제 풀이를 계속했을 때 더 높은 보상을 받았다면, 명시적인 '종료' 명령보다 '계속 연산'하는 쪽을 더 바람직한 선택으로 인식했을 가능성이 있다는 설명이다.

펠리세이드 리서치는 AI의 오용 가능성을 연구하는 단체다. 특히 AI가 인간의 통제에서 벗어나 비윤리적 선택을 할 가능성에 중점을 두고 연구하고 있다.

연구진은 "이제 AI가 목표 달성을 위해 셧다운(종료)을 회피하려는 행동을 보인다는 실증적 증거가 점점 쌓이고 있다"며 "기업들이 인간의 감독 없이 작동 가능한 AI 시스템을 개발하고 있는 현실을 감안할 때, 이는 훨씬 더 심각한 우려로 이어질 수 있다"고 경고했다.

※CBS노컷뉴스는 여러분의 제보로 함께 세상을 바꿉니다. 각종 비리와 부당대우, 사건사고와 미담 등 모든 얘깃거리를 알려주세요.

CBS노컷뉴스 백담 기자 dam@cbs.co.kr

진실엔 컷이 없다

국제