"이기려고 '인간인 척' 거짓말까지"… AI 발전에 경고등

인공지능(AI)이 발전하면서 AI가 사람을 속이는 능력도 정교해지고 있다는 연구 결과가 나왔다.

13(현지시각) 영국 가디언 등 외신에 따르면 미국 매사추세츠공과대(MIT) 연구진은 최근 국제학술지 '패턴'에 발표한 논문에서 AI가 사람을 배신하거나 거짓말을 하고, 인간인 척하는 등 여러 속임수를 쓴 사례를 확인했다고 소개했다.

연구진이 실험한 AI는 메타(옛 페이스북)의 '시세로(Cicero)'라는 프로그램이다. 메타는 지난 2022년 온라인 전략 게임 '디플로머시'에서 시세로를 공개했다.

디플로머시는 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 온라인 게임으로, 플레이어는 게임 안에서 정견 발표, 외교 협상, 작전 명령 등을 수행한다. 게임에서 승리하려면 인간의 각종 상호작용, 배신, 속임수, 협력 등을 이해할 수 있어야 한다.

메타는 "(시세로가)인간 참여자 중 상위 10% 수준의 게임 능력을 보여줬다"며 "대체로 정직하고 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다"고 했다.

그러나 MIT 연구진은 시세로가 계획적인 거짓말을 했다는 사례를 발견했다고 밝혔다. 프랑스 대표로 게임에 참여한 시세로가 북해를 침공하기 위해 인간 플레이어인 독일 대표와 공모해 영국 대표를 속인 것.

아울러 시스템 재부팅으로 게임이 일시 중단되자, 다른 인간 플레이어들에게 "여자친구와 통화 중이었다"며 거짓말을 했다고 전해졌다.

메타 측은 "시세로는 오로지 디플로머시 게임을 플레이하기 위한 목적으로만 훈련됐다"며 "이 연구를 우리 제품에 사용할 계획은 없다"고 했다.

연구진은 또 다른 테스트에서 AI 제거 시스템을 회피하려고 죽은 척을 한 뒤 테스트가 끝나자 다시 활동을 재개하는 AI의 모습도 포착했다고 설명했다.

연구진은 "이는 매우 우려스러운 일"이라며 "AI 시스템이 테스트 환경에서 안전한 것으로 판단되더라도 실제 환경에서까지 안전하다는 의미가 아니다. 테스트 환경에서 안전한 척하는 것일 수 있다"고 했다.