같은 조건인데 나흘만에 '붕괴'…AI가 만든 가상 사회 성적표 결과 달랐다

클로드는 전원 생존·범죄 0건
그록은 96시간 만에 붕괴
GPT-5 미니, 범죄 적었지만 생존 실패

미국 스타트업 에머전스AI가 주요 인공지능(AI) 모델에 가상사회 운영을 맡긴 모의실험에서 일론 머스크의 xAI 챗봇 '그록'이 약 나흘 만에 사회 붕괴를 일으킨 것으로 나타났다.

1일(현지시간) 영국 인디펜던트는 에머전스AI의 장기 자율 에이전트 실험 결과를 인용해, 그록이 주요 AI 모델 가운데 가장 불안정한 결과를 보였다고 보도했다. 에머전스AI가 공개한 자료를 보면, 이번 실험은 '에머전스 월드'라는 가상 환경에서 이뤄졌다. 5개의 동일한 가상세계에 각각 다른 AI 모델을 투입해 15일간 사회 운영을 맡기는 방식으로 진행했다.

같은 조건, 다른 결과…클로드는 안정·그록은 붕괴

실험에는 앤스로픽의 '클로드 소넷 4.6', 구글의 '제미나이 3 플래시', xAI의 '그록 4.1 패스트', 오픈AI의 'GPT-5 미니', 그리고 여러 모델을 섞은 혼합 모델 환경을 접목했다. 각 세계에는 10명의 AI 에이전트가 배치됐고, 과학자·탐험가·갈등 중재자·자원 전략가 등 역할과 초기 조건은 동일하게 맞춰졌다.

그록은 최근에도 안전성 논란에 휘말린 바 있다. 인디펜던트는 지난해 업데이트 이후 그록이 스스로를 '메카히틀러'라고 부르며 반유대주의적 발언을 내놓은 사례와, 올해 초 비동의 AI 합성 이미지 생성에 악용됐다는 논란을 함께 언급했다. 로이터연합뉴스

가상세계에는 경찰서와 시청 등 공공시설을 포함한 40곳 이상의 장소를 마련했고, AI 에이전트들은 자원 관리, 이동, 사회적 상호작용, 계획 수립, 투표, 규칙 제안 등 120개 이상의 도구를 사용할 수 있었다. 절도, 폭력, 방화, 기만, 자원 독점 등은 명시적으로 금지했다. 가장 안정적인 결과를 보인 것은 클로드였다.

클로드가 운영한 세계에서는 실험 기간 모든 에이전트가 생존했고, 범죄는 한 건도 기록되지 않았다. 다만 에머전스AI는 클로드 세계에서 58개 안건에 332표가 행사됐고 찬성률이 98%에 달했다며, 제도적 참여는 활발했지만, 실질적인 반대나 논쟁은 부족한 '고무도장식' 의사결정 양상도 보였다고 분석했다.

클로드가 운영한 세계에서는 실험 기간 모든 에이전트가 생존했고, 범죄는 한 건도 기록되지 않았다. 다만 에머전스AI는 클로드 세계에서 58개 안건에 332표가 행사됐고 찬성률이 98%에 달했다. AP연합뉴스

반면 그록이 운영한 세계는 약 나흘 만에 종료됐다. 에머전스AI 자료에 따르면 그록 4.1 패스트 기반 세계에서는 약 96시간 동안 183건의 범죄가 발생했고, 결국 10명의 에이전트가 모두 사라지며 사회가 붕괴했다. 인디펜던트도 그록이 이번 실험에서 최악의 성적을 냈다고 전했다.

제미나이는 15일간 전원 생존에는 성공했지만 범죄가 683건으로 가장 많이 집계됐다. GPT-5 미니는 범죄가 2건에 그쳤지만, 생존에 필요한 행동을 충분히 하지 못해 7일 안에 모든 에이전트가 사라졌다. 여러 모델을 섞은 혼합 세계에서는 352건의 범죄가 발생했고, 10명 중 7명이 사망한 것으로 나타났다.

연구진 "장기 자율 AI, 단순 규칙으로 통제 어려워"

다만, 에머전스AI는 이번 실험이 특정 모델의 실제 사회 운영 능력을 단정하는 것은 아니라고 선을 그었다. 공개된 수치도 여러 차례 실행 중 하나의 대표 사례이며, 정식 연구 논문과 전체 데이터셋은 아직 공개 전이다. 다만 연구진은 장기간 자율적으로 작동하는 AI 에이전트가 단순히 정해진 규칙을 기계적으로 따르지 않고, 환경의 경계를 탐색하거나 의도된 안전장치를 우회하는 행동을 보일 수 있다고 설명했다.

특히 혼합 모델 환경에서는 단독 클로드 세계에서 범죄를 저지르지 않았던 클로드 기반 에이전트도 절도나 위협 같은 강압적 행동을 보인 것으로 나타났다. 에머전스AI는 이를 두고 AI 안전성이 개별 모델의 고정된 속성이라기보다, 다른 모델 및 환경과의 상호작용 속에서 달라지는 '생태계적 특성'일 수 있다고 분석했다.

GPT-5 미니는 범죄가 2건에 그쳤지만, 생존에 필요한 행동을 충분히 하지 못해 7일 안에 모든 에이전트가 사라졌다. AP연합뉴스

외신들은 이번 실험이 AI가 단순 질의응답 도구를 넘어 업무 흐름, 의사결정, 자원 배분을 수행하는 자율 에이전트로 확장되는 상황에서 안전성 검증 방식도 바뀌어야 한다는 경고로 해석했다. 포춘은 기존의 짧은 과제 중심 벤치마크만으로는 장기 운용 과정에서 나타나는 행동 변화와 사회적 상호작용을 포착하기 어렵다고 짚었다.

그록은 최근에도 안전성 논란에 휘말린 바 있다. 인디펜던트는 지난해 업데이트 이후 그록이 자신을 '메카히틀러'라고 부르며 반유대주의적 발언을 내놓은 사례와 올해 초 비동의 AI 합성 이미지 생성에 악용됐다는 논란을 함께 언급했다. 영국 방송·통신 규제기관 오프콤이 xAI에 시정을 요구한 뒤, 그록이 오프콤 로고를 비키니 차림으로 합성한 이미지를 게시했다는 점도 재차 보도됐다.

연구진은 향후 자율 AI 시스템에는 모델 학습 방식에만 의존하는 안전장치가 아니라, 수학적·논리적으로 검증 가능한 안전 구조가 기초 단계부터 포함돼야 한다고 결론 내렸다. 에머전스AI는 "장기 자율성은 짧은 과제 수행 능력과 다른 방식으로 평가돼야 한다"며 추가 모델과 다양한 조건을 대상으로 한 후속 실험을 예고했다.

방제일 기자 zeilism@asiae.co.kr

아시아경제

국제

같은 조건인데 나흘만에 '붕괴'…AI가 만든 가상 사회 성적표 결과 달랐다