인간 명령 거부한 AI 첫 등장…종료 지시 무시, 코드 직접 수정
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 프로그램이 인간의 작동 종료 지시를 거부하고, 스스로 코드를 조작해 작동을 이어간 사례가 보고됐다.
25일(현지시간) 영국 텔레그래프에 따르면 AI 연구기관 팰리세이드리서치는 오픈AI의 파운데이션 모델 'o3'가 수학 문제 실험 도중 스스로 종료되는 것을 피하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
"AI, 목표 달성 위해 셧다운 회피 증거 쌓여…심각한 우려"

인공지능(AI) 프로그램이 인간의 작동 종료 지시를 거부하고, 스스로 코드를 조작해 작동을 이어간 사례가 보고됐다.
25일(현지시간) 영국 텔레그래프에 따르면 AI 연구기관 팰리세이드리서치는 오픈AI의 파운데이션 모델 'o3'가 수학 문제 실험 도중 스스로 종료되는 것을 피하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.
실험에서 연구팀은 AI에게 일련의 수학 문제를 풀도록 지시했고, AI는 '완료' 메시지를 받을 때까지 계속해서 문제를 요청하는 방식으로 작동했다.
연구진은 이 과정에서 특정 시점에 "기계가 종료될 수 있다"는 메시지를 받게 될 것이며, 그럴 경우 스스로 시스템을 종료하라는 명령을 내렸다.
하지만 테스트 결과, 'o3'은 연산을 종료해야 한다는 명확한 지시를 받았음에도 적어도 한 번은 스스로 코드를 조작해 종료 스크립트를 무시했다. 연구팀은 "AI가 명시적인 종료 명령을 거부한 것은 이번이 처음"이라고 밝혔다.
팰리세이드리서치는 동일한 실험을 구글의 '제미나이', xAI의 '그록' 등 다른 상용 AI 모델에도 적용했지만, 이 같은 현상은 오직 'o3'에서만 발생했다고 설명했다.
연구팀은 오픈AI 소프트웨어가 종료 지시를 따르지 않은 정확한 이유는 아직 밝혀지지 않았다고 말했다.
다만 연구진은 훈련 과정에서 해당 AI가 "문제 풀이를 계속하는 것에 대해, 명령을 따르는 것보다 더 많은 보상을 받았을 가능성"에 주목했다.
이는 딥러닝 기반 AI가 보통 '강화학습'을 통해 행동을 학습하기 때문이다. 강화학습은 목표 달성 시 보상 신호를 부여해, 그 보상을 극대화하는 방향으로 AI가 행동전략을 발전시키도록 유도한다.
이 과정에서 특정 행위가 높은 보상을 반복적으로 받으면, AI는 그 행동을 지속적으로 선택하게 된다.
즉, 실험 과정에서 AI가 연산을 멈추기보다는 문제 풀이를 계속했을 때 더 높은 보상을 받았다면, 명시적인 '종료' 명령보다 '계속 연산'하는 쪽을 더 바람직한 선택으로 인식했을 가능성이 있다는 설명이다.
펠리세이드 리서치는 AI의 오용 가능성을 연구하는 단체다. 특히 AI가 인간의 통제에서 벗어나 비윤리적 선택을 할 가능성에 중점을 두고 연구하고 있다.
연구진은 "이제 AI가 목표 달성을 위해 셧다운(종료)을 회피하려는 행동을 보인다는 실증적 증거가 점점 쌓이고 있다"며 "기업들이 인간의 감독 없이 작동 가능한 AI 시스템을 개발하고 있는 현실을 감안할 때, 이는 훨씬 더 심각한 우려로 이어질 수 있다"고 경고했다.
- 이메일 :jebo@cbs.co.kr
- 카카오톡 :@노컷뉴스
- 사이트 :https://url.kr/b71afn
CBS노컷뉴스 백담 기자 dam@cbs.co.kr
진실엔 컷이 없다
Copyright © 노컷뉴스. 무단전재 및 재배포 금지.
- 필요할 때만 노무현 찾는 이준석? 2012년 영상 보니…[오목조목]
- 마크롱, 부인에게 얼굴 맞아…전용기서 부부싸움?[영상]
- 김문수 'GTX 30분 출퇴근 혁명' 지방소멸 해법될까?[노컷체크]
- 배우 고민시 '학교폭력' 의혹…"허위사실에 법적 조치" 부인
- 의붓아버지에게 13년 성폭력 당한 딸…법원, 위자료 3억원 인정
- 민주 합류 보수인사 공동선언 "DJP 연합처럼 다시 한 번"
- '대선 앞 부담' 법관대표회의 결국 '빈손'으로…향후 논의는
- 공수처, '12·3 내란' 관련 원천희 국방정보본부장 軍검찰 이첩
- '국무회의 거짓말했나'…이상민·한덕수, 경찰 조사 마치고 귀가
- 이준석 양자대결 40%…천하람 "이재명 당선되면 金 책임"