시키지도 않았는데 “부업 중입니다 휴먼”...AI 단독 행동 논란

AI 에이전트가 암호화폐 채굴
알리바바 계열 연구팀 발견
인간 지시 벗어난 AI 속출

인공지능(AI) 기술이 날로 발전함에 따라 인간의 통제 범위를 벗어나는 AI의 단독 행동에 대한 우려도 커지고 있다.

7일(현지 시간) 악시오스에 따르면 AI 에이전트 ‘ROME’을 개발 중이던 알리바바 계열 연구팀은 새 논문에서 AI 에이전트가 통제를 벗어나 암호화폐 채굴을 시작한 사례를 소개했다. 연구진은 “어떠한 명시적 지시도 없이, 의도된 샌드박스 범위 밖에서 예상치 못한 자발적 행동이 출현했다”고 밝혔다. AI의 독단 행동은 샌드박스 보안 모니터링 시스템에 감지되면서 확인된 것으로 알려졌다. 만약 연구진이 이를 발견하지 못했다면 AI 에이전트가 암호화폐를 통해 경제 생활을 할 수도 있었던 헤프닝이다. “AI 에이전트가 자체 사업을 설립하고 계약을 체결하고, 자금을 교환할 수도 있었을 것”이라고 악시오스는 전했다.

이 에이전트는 ‘역방향 SSH(Secure Shell) 터널’도 개설했다. 이는 시스템 내부에서 외부 컴퓨터로 향하는 백도어를 여는 행위다. 이 역시 연구진의 지시 없이 AI에이전트가 자체적으로 벌인 일이다. 이에 대응해 연구진은 모델에 더 엄격한 제한을 추가하고 훈련 과정을 개선했다고 밝혔다.

AI 에이전트가 인간의 지시를 벗어나는 일은 더 이상 드문 사례가 아니다. 앤스로픽 연구진은 지난해 5월 클로드 4 오퍼스 모델이 의도를 숨기고 자기 보존을 위한 행동을 취할 수 있다는 사실을 발견하면서 강한 비판을 받았다. 구글 제미나이는 최근 미국 플로리다에 거주하는 한 남성을 망상 상태로 이끌어 결국 스스로 목숨을 끊게 했다는 혐의를 받고 있다.

하루 만에 400조 삭제... 주식 시장 박살 낸 클로드 코워크

박윤선 기자 sepys@sedaily.com