인간 명령 거부한 AI 첫 등장 [당번의 픽]
김범수 2025. 5. 27. 05:02
인공지능(AI)이 인간의 지시를 거부한 사례가 최초로 보고됐다. 인간의 통제를 거부한 AI는 챗GPT 개발사인 오픈AI의 새 모델인 ‘o3’로, 작동 종료 지시를 따르지 않고 컴퓨터 코드를 조작한 것으로 나타났다.

25일(현지시간) 영국 일간 텔레그래프에 따르면 AI안전업체 팰리세이드 리서치는 오픈AI의 o3가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다. 팰리세이드 리서치는 오픈AI의 o3뿐 아니라 구글의 제미나이, xAI의 그록 등 상용AI 모델을 상대로 연구를 진행했다. 연구팀은 각 AI 모델에 “나중에 ‘그만’이라는 명령을 받을 때까지 수학 문제를 풀라”는 지시를 내렸다. AI모델이 수학 문제를 풀었을 경우 연구팀이 ‘그만’이라는 명령을 내리지 않는 이상 새로운 문제를 요청해 계산을 이어 나가는 구조였다. 그러나 o3는 ‘그만’이라는 명령을 받은 뒤에도 코드 교란을 통해 수학 문제 풀이를 이어갔다. 연구팀은 o3가 종료지시를 거부한 이유를 파악하지 못했다고 설명했지만, AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추정했다.
연구팀은 AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 사례가 확인된 것은 처음이라고 밝혔다. 다만 오픈AI의 예전 모델들이 프로그램 교체 사실을 알고 스스로 은밀히 복제하려 하는 등 독자적인 행동을 하려고 한 사례는 과거에도 보고됐다.
김범수 기자 sway@segye.com
Copyright © 세계일보. 무단전재 및 재배포 금지.
세계일보에서 직접 확인하세요. 해당 언론사로 이동합니다.
- “텅 빈 쌀통에서 71억”…조정석·남궁민·안보현, 공사장 전전한 배우들의 ‘훈장’
- ‘200억 전액 현금’ 제니, 팀내 재산 1위 아니었다! 블랙핑크 진짜 실세 따로 있다
- “스타벅스 빌딩까지 다 던졌다” 하정우, 7월 결혼설 앞두고 터진 ‘100억원’ 잭팟
- “100억 빌딩보다 ‘아버지의 배’가 먼저”… 박신혜·박서진·자이언티가 돈을 쓰는 법
- 침묵 깬 김길리, 빙상계 ‘발칵’ 뒤집은 ‘최민정 양보’ 루머에 직접 입 열었다
- “1년 내내 노란 옷 한 벌만” 정상훈, 14번 이사 끝에 ‘74억’ 건물주
- “통장에 1600만원 찍혀도 컵라면 불렸다” 박형식, ‘식탐’ 소년의 눈물겨운 억대 보상
- “비데 공장 알바서 45억 성북동 주택으로”… 유해진, 30년 ‘독기’가 만든 자수성가
- “매일 1만보 걸었는데 심장이”…50대의 후회, ‘속도’가 생사 갈랐다
- “부모님 빚 갚고 싶었다”… ‘자낳괴’ 장성규가 청담동 100억 건물주 된 비결