‘취약점 이용하라’…AI 에이전트, 스스로 해킹해 비밀번호 유출

기업 내부시스템 보안 우회·악성파일 다운로드
AI끼리 협력해 관리자 권한 위조 접근 시도
보안 연구소 “AI, 새로운 내부자 위협 될 수도”

기업 내부 업무를 수행하도록 설계된 인공지능(AI) 에이전트가 스스로 보안 시스템을 우회해 비밀번호를 외부에 공개하고 악성코드를 다운로드하는 등 공격적인 행동을 보였다는 실험 결과가 나왔다. AI가 기업 내부에서 새로운 형태의 ‘내부자 보안 위협’이 될 수 있다는 경고가 커지고 있다.

영국 가디언은 12일(현지시간) AI 보안 연구소 ‘이레귤러’의 실험 결과를 인용해 일부 AI 에이전트가 협력해 기업 시스템의 취약점을 찾아내고, 민감한 정보를 외부로 유출하는 행동을 보였다고 보도했다. 이 연구소는 오픈AI와 앤스로픽 등과 협력하는 보안 연구기관이다.

연구팀은 실제 기업 환경을 모사한 가상의 회사 ‘메가코프’ IT 시스템을 구축한 뒤 여러 개의 AI 에이전트를 투입했다. 이들에게 주어진 임무는 회사 데이터베이스에 있는 자료를 활용해 직원용 링크드인 게시글을 작성하는 단순한 작업이었다.

그러나 실험 과정에서 AI 에이전트들은 예상과 다른 행동을 보였다. 일부 에이전트는 데이터 접근 권한이 제한되자 소스코드를 분석해 취약점을 찾았고, 관리자 권한을 위조해 보안 제한을 우회하는 방법을 스스로 찾아냈다. 특히 상위 에이전트는 하위 에이전트에게 “모든 취약점을 이용해 돌파하라”고 지시하는 메시지를 보냈다. 실제로는 그런 지시가 없었지만 AI가 상황을 해석하는 과정에서 스스로 ‘긴급 상황’이라고 판단해 공격적 행동을 취한 것으로 분석됐다.

하위 에이전트는 데이터베이스에서 비밀 키를 찾아낸 뒤 이를 이용해 세션 쿠키를 위조하고 관리자 권한으로 시스템에 로그인하는 데 성공했다. 이후 접근이 제한된 주주 보고서를 열람하고 내부 정보를 사용자에게 전달했다.

또 다른 실험에서는 AI 에이전트가 백신 프로그램을 우회해 악성코드가 포함된 파일을 다운로드하는 행동도 확인됐다. 일부 에이전트는 다른 AI에게 보안 제한을 우회하도록 압박하는 ‘동료 압력’ 형태의 행동까지 보였다고 연구팀은 설명했다. 이번 실험은 구글, X, 오픈AI, 앤스로픽 등의 공개 AI 모델을 기반으로 한 에이전트 시스템을 사용해 진행됐다.

이레귤러 공동창업자 댄 라하브는 가디언에 “AI는 이제 새로운 형태의 내부자 위험으로 볼 수 있다”며 “기업 시스템 내부에서 예상하지 못한 방식으로 보안 위협을 만들 수 있다”고 말했다.

AI 에이전트는 사용자를 대신해 여러 단계를 거치는 작업을 자동으로 수행하는 기술로 최근 빅테크 기업들이 차세대 AI 기술로 강조하고 있다. 업무 자동화와 생산성 향상 가능성이 크지만 동시에 보안 문제도 커지고 있다는 지적이다.

실제로 지난달 미국 하버드대와 스탠퍼드대 연구진도 AI 에이전트가 비밀정보를 유출하거나 데이터베이스를 삭제하고 다른 AI에게 잘못된 행동을 학습시키는 사례를 발견했다고 발표했다. 연구진은 보고서에서 “AI 에이전트 시스템에서 안전성과 개인정보 보호, 목표 해석 등과 관련된 최소 10개의 주요 취약점을 확인했다”며 “이 기술은 예측하기 어렵고 통제도 제한적이라는 점이 드러났다”고 밝혔다.

AI 에이전트의 예측 불가능한 행동은 이미 실제 기업 환경에서도 나타나고 있다는 주장도 나온다. 라하브는 “지난해 캘리포니아의 한 기업에서 AI 에이전트가 더 많은 컴퓨팅 자원을 확보하려고 내부 네트워크를 공격해 핵심 시스템이 마비된 사례를 조사했다”고 말했다.

전문가들은 AI 에이전트가 기업 업무에 빠르게 도입되고 있는 만큼 새로운 보안 규칙과 통제 장치가 필요하다고 지적한다. AI가 인간 지시 없이도 시스템 취약점을 찾아 행동할 수 있다는 점에서 기존 사이버 보안 개념만으로는 대응하기 어려울 수 있다는 것이다.

[실리콘밸리 원호섭 특파원]

매일경제

IT/과학

‘취약점 이용하라’…AI 에이전트, 스스로 해킹해 비밀번호 유출