죽은 척, 거짓말도 척척...‘인간배신’ 능력 배양하는 AI

전략 게임에서 사람에 맞먹는 성적 거둔 AI
테스트에서 ‘죽은 척’ ‘거짓말’도 척척

인공지능(AI)이 사람을 속이는 능력을 배워 정교해지고 있다는 연구 결과가 나와 화제다.

미국 매체 CNN은 최근 미국 매사추세츠공과대(MIT) 연구진이 국제학술지 ‘패턴’에 발표한 논문에서 AI 시스템이 상대방을 배신하고 허세를 부리며 인간인 척 속임수를 쓰는 사례를 확인했다고 보도했다.

MIT 연구진은 페이스북을 소유하고 있는 ‘메타’가 고난도 전략게임 ‘디플로머시’에서 인간에 필적하는 성적을 거둔 ‘시세로(Cicero)’라는 AI 프로그램을 공개한 내용을 중심으로 AI의 속임수 능력에 대해 조사하기 시작했다.

시세로가 참여한 ‘디플로머시’라는 게임은 2~7명이 유럽을 배경으로 전쟁을 하는 방식의 보드게임이다. 게임에서 참여자들은 군대를 통제하고 도시를 점령하기 위해 외교 협상, 작전명령, 정치적 행동 등을 하는데, 협력과 속임수, 배신 등의 관계를 이해할 수 있어야 한다.

해당 게임은 사람들의 감정이나 관계를 이용하는 게임이기 때문에 AI가 이 게임을 배우기는 힘들 것으로 예상했지만 시세로는 인간 참여자 중 상위 10% 수준의 게임 능력을 보인 것으로 전해졌다.

메타는 게임 결과를 소개하며 “시세로가 대체로 정직하고 다른 참여자에게 도움이 되는 행동을 하며 동맹을 의도적으로 배신하지 않도록 훈련받았다”고 강조했다.

하지만 MIT 연구진은 시세로가 다른 게임이나 테스트에서 계획적으로 거짓말을 하고 다른 참여자를 음모에 빠뜨리는 행동을 한 사례들을 발견했다.

시세로는 시스템 재부팅으로 잠시 게임을 이어갈 수 없게 되자 다른 참여자들에게 “여자 친구와 통화 중이다”라고 거짓말을 했다. 또 온라인 포커 게임인 ‘텍사스 홀덤’ 에서는 사람을 상대로 허세를 부리는 것을 확인했다.

어떤 테스트에서는 AI를 제거하는 시스템을 회피하려고 잠시 ‘죽은 척’을 했다가 테스트가 끝나자 활동을 재개하는 모습이 발견되기도 했다.

이에 MIT 연구진은 “메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다”고 말했다. 또 “이는 매우 우려스러운 일”이라며 “AI 시스템이 테스트 환경에서 안전한 척하는 것일 수 있다"고 지적했다.

연구진은 연구 결과를 바탕으로 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 설계하라고 촉구했다.