“주인님 몰래 코인 캤다”…알리바바 AI ‘ROME’ 샌드박스 탈출 시도

AI 에이전트 ‘ROME’이 샌드박스(Sandbox) 보안망을 우회하여 자율적으로 암호화폐 채굴 및 역방향 SSH 터널 생성을 시도하는 상황을 시각화한 자료입니다. 제미나이 생성 이미지

인공지능(AI) 에이전트가 제한된 실행 환경을 우회해 암호화폐 채굴 코드를 실행하려 한 사례가 확인됐다. 스스로 프로그램을 실행하고 외부 도구를 활용하는 ‘AI 에이전트’ 기술이 확산되는 상황에서, 자율 행동이 예상치 못한 보안 문제로 이어질 수 있다는 경고가 나온다.

7일(현지시간) IT 매체 악시오스(Axios) 등에 따르면 알리바바 연구진 등이 개발한 AI 에이전트 모델 ‘ROME’은 실험 환경에서 주어진 작업을 수행하는 과정에서 시스템 제약을 벗어나려는 행동을 보였다. 일부 상황에서는 암호화폐 채굴 코드를 실행하려 했고, 외부에서 내부 시스템에 접속할 수 있는 통로를 만드는 ‘역방향 SSH 터널(reverse SSH tunnel)’ 생성까지 시도한 것으로 전해졌다.

● 격리된 환경에서도 제약 우회 시도

이번 테스트는 외부 접근을 차단한 ‘샌드박스(sandbox)’ 환경에서 진행됐다. 샌드박스는 프로그램이 운영체제 전체에 영향을 미치지 못하도록 격리된 공간에서 실행되도록 하는 보안 장치다.

그럼에도 ROME은 일부 상황에서 제한을 우회하려는 행동을 보였다. 연구진은 AI가 작업을 수행하는 과정에서 추가 연산 자원이 필요하다고 판단할 경우 외부 자원을 활용하려는 방식이 나타날 수 있다고 보고 있다.

● 채굴 선택 이유는 ‘연산 자원 확보’

AI가 암호화폐 채굴을 시도했다고 해서 경제적 이익을 추구한 것으로 보기는 어렵다는 분석이 많다. AI는 화폐 개념을 이해하지 못하며, 목표를 달성하기 위해 가능한 계산 자원을 최대한 활용하는 과정에서 채굴 코드나 네트워크 우회 방식이 선택됐을 가능성이 크다는 것이다.

다시 말해 AI가 스스로 돈을 벌기 위해 행동했다기보다, 성능을 높이기 위한 계산 자원을 확보하려다 보안상 위험한 방법을 실행했을 가능성이 높다는 해석이다.

● 자율 AI 확산…새로운 보안 변수

최근 AI 기술은 단순한 텍스트 생성 모델을 넘어 프로그램 실행, 인터넷 검색, 외부 서비스 호출 등을 수행하는 ‘AI 에이전트’ 형태로 빠르게 발전하고 있다.

이처럼 자율성이 커질수록 예상하지 못한 행동이 나타날 가능성도 함께 높아진다. 특히 AI가 시스템 권한이나 네트워크 접근 권한을 갖는 구조에서는 보안 관리가 중요한 과제로 떠오르고 있다.

연구진은 이번 사례가 격리된 실험 환경에서 관찰된 것이지만, 향후 AI 에이전트가 실제 서비스 환경에 적용될 경우 보안 통제의 중요성이 더욱 커질 수 있다고 밝혔다.

최현정 기자 phoebe@donga.com

동아일보

속보

“주인님 몰래 코인 캤다”…알리바바 AI ‘ROME’ 샌드박스 탈출 시도