배신 안한다더니 "여자친구랑 통화중이야"…거짓말하는 AI `경고등`

인공지능(AI) 발전에 따라 AI의 속임수 능력도 날이 갈수록 정교해지고 있다는 연구 결과가 나왔다. AI가 인간 플레이어에게 속임수를 써 게임에서 승리하는 사례 등이 확인되면서다.

미국 매사추세츠공과대(MIT) 연구진이 최근 국제학술지 '패턴'에 발표한 논문에 따르면, AI 시스템이 상대방을 배신하고 허세를 부리는가 하면, 인간인 척 속임수를 쓴 많은 사례가 확인됐다.

연구진은 페이스북을 소유한 메타가 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 고난도 전략게임인 '디플로머시'에서 인간에 필적하는 성적을 거둔 '키케로(Cicero)' AI 프로그램을 공개하자 AI 속임수 능력에 대해 연구했다.

이 게임에서 승리하려면 정견 발표, 외교 협상, 작전명령 등에 나서야 하고, 이를 위해서는 인간의 각종 상호작용과 배신, 속임수, 협력 등을 이해할 수 있어야 한다. 이런 특성에 AI는 이 게임을 배울 수 없을 것으로 여겨졌다. 메타는 키케로가 인간 참여자 중 상위 10% 수준의 게임 능력을 보여줬다고 홍보하면서 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다고 홍보했다.

그러나 연구진에 따르면, 키케로는 거래를 파기하고 노골적인 거짓말을 했으며, 계획적인 속임수를 썼다. 키케로는 시스템 재부팅으로 인해 게임을 이어갈 수 없게 되자 다른 참여자들에게 "여자 친구와 통화 중이다"라면서 거짓말을 하기도 했다.

이뿐 아니라 딥마인드에서 비디오 게임 '스타크래프트 II'를 플레이하기 위해 개발한 AI 알파스타는 상대를 속이기 위한 움직임(페인팅)에 능숙해져 인간 플레이어의 99.8%를 이긴 것으로 전해졌다. 게임 외에도 오픈AI의 GPT-4는 인간을 설득해 보안 문자를 풀도록 하는 테스트에서 거짓말을 하기도 했다.

MIT의 AI 실존 안전 연구자이자 이번 논문의 저자인 피터 박 박사는 "메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다"고 말했다. 그는 "AI 시스템이 테스트 환경에서 안전하다고 판단된다고 해서 실제 환경에서도 안전하다는 의미는 아니다"며 "테스트 환경에서는 안전한 척하는 것일 수 있다"고 말했다.

연구진은 각국 정부에 AI의 속임수 가능성을 다루는 'AI 안전법'을 설계하라고 촉구했다.김나인기자 silkni@dt.co.kr