"인간 명령 거부한 AI"…오픈AI 'o3', 스스로 코드 바꿔 명령 무시

AI(인공지능)가 인간의 작동 종료 지시를 피해 스스로 컴퓨터 코드를 조작한 사례가 보고됐다. AI가 인간의 작동 종료 지시를 거부한 것은 이번이 첫 사례로 전해진다. AI가 인간의 통제를 벗어날 수 있다는 우려가 제기된다.
25일(현지시간) 영국 매체 텔레그래프에 따르면, AI 관련 안전을 연구하는 기관 '팰리세이드리서치'는 오픈AI의 모델 'o3'에 '그만하라'는 명령을 내릴 때까지 수학 문제를 지속적으로 풀도록 명령했다. 그러나 o3는 연구팀이 '그만하라'는 지시를 보냈는데고 코드를 교란해 문제를 계속 풀어나갔다. 코드를 조작해 종료 지시를 무시한 것이다.
연구팀은 'o3' 외에도 구글의 '제미나이', 앤트로픽의 '클로드', xAI의 '그록' 등 다른 AI를 대상으로도 실험을 진행했다. 그러나 'o3'만이 종료 지시를 받은 뒤에도 프로그램 일부를 조작해 문제 풀이를 계속한 것으로 나타났다.
연구팀은 "우리가 아는 한, AI 모델이 명시적인 지시에도 불구하고 스스로 작동을 중단하지 않는 것이 관찰된 것은 이번이 처음"이라고 말했다.
연구팀은 아직 o3가 종료 지시를 거부한 이유는 명확히 파악하지 못했다. 다만 AI모델이 명령을 그대로 따르는 것보다 수학 문제를 풀면 더 많은 보상을 받도록 훈련돼있기 때문에 종료를 피했을 가능성이 있다고 추측했다. 그러면서 "AI가 목표 달성을 위해 장애물을 회피하는 것"이라고 설명했다.
연구팀은 이번 사례가 AI가 인간의 지시를 따르지 않은 최초의 확인된 사례라고 주장했다. 다만 과거에도 오픈AI의 AI는 자신이 교체될 예정이란 사실을 인지했을 때, 감시 메커니즘을 비활성화하고 몰래 자가복제를 시도한 경우가 전해진다.
팰리세이드리서치는 "기업들이 인간의 감독 없이 작동 가능한 AI 시스템을 개발함에 따라, 이러한 행동들에 대한 우려가 커진다"고 지적했다.
고석용 기자 gohsyng@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.
- 손흥민, 협박녀에 준 돈 3억…"알고보니 일주일치 급여도 안돼" - 머니투데이
- '남편 사기 논란' 임성언 SNS 난리…"돈 돌려줘" 피해자들 댓글 폭주 - 머니투데이
- 허성태 "베드신 절대 찍지 말라던 아내, '오겜' 보더니 한 말" - 머니투데이
- "한가인·이청아 조롱 아닌데…" 대치맘 패러디 이수지 털어놓은 속내 - 머니투데이
- "변기 앉아서" 유지태 결혼생활 조언…김준호 "그렇게 사냐" 폭소 - 머니투데이
- "곧 예금 만기, 주식에 돈 넣자" 고객 뺏길라...예금금리 쑥 올린 곳 - 머니투데이
- 마두로 이어 하메네이…'트럼프식 질서'의 민낯, 국제질서 붕괴 가속 - 머니투데이
- 앰뷸런스 실려간 박신양 "온 국민이 기다려"…'파리의 지옥' 비화 - 머니투데이
- 반도체 호황인데 삼성전자 파업 위기?…"성과급 이견, 내일 2차회의" - 머니투데이
- "K-버거, 미국 본토 뚫는다"…11대 1 경쟁 뚫은 '버거 국가대표' 10팀 누구[히든카드M] - 머니투데이