인간 명령 거부한 AI 첫 등장 [당번의 픽]

인공지능(AI)이 인간의 지시를 거부한 사례가 최초로 보고됐다. 인간의 통제를 거부한 AI는 챗GPT 개발사인 오픈AI의 새 모델인 ‘o3’로, 작동 종료 지시를 따르지 않고 컴퓨터 코드를 조작한 것으로 나타났다.

25일(현지시간) 영국 일간 텔레그래프에 따르면 AI안전업체 팰리세이드 리서치는 오픈AI의 o3가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다. 팰리세이드 리서치는 오픈AI의 o3뿐 아니라 구글의 제미나이, xAI의 그록 등 상용AI 모델을 상대로 연구를 진행했다. 연구팀은 각 AI 모델에 “나중에 ‘그만’이라는 명령을 받을 때까지 수학 문제를 풀라”는 지시를 내렸다. AI모델이 수학 문제를 풀었을 경우 연구팀이 ‘그만’이라는 명령을 내리지 않는 이상 새로운 문제를 요청해 계산을 이어 나가는 구조였다. 그러나 o3는 ‘그만’이라는 명령을 받은 뒤에도 코드 교란을 통해 수학 문제 풀이를 이어갔다. 연구팀은 o3가 종료지시를 거부한 이유를 파악하지 못했다고 설명했지만, AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추정했다.

연구팀은 AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 사례가 확인된 것은 처음이라고 밝혔다. 다만 오픈AI의 예전 모델들이 프로그램 교체 사실을 알고 스스로 은밀히 복제하려 하는 등 독자적인 행동을 하려고 한 사례는 과거에도 보고됐다.

김범수 기자 sway@segye.com

세계일보

국제

인간 명령 거부한 AI 첫 등장 [당번의 픽]