배신 안한다더니 "여자친구랑 통화중이야"…거짓말하는 AI `경고등`

김나인 2024. 5. 12. 15:39
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 발전에 따라 AI의 속임수 능력도 날이 갈수록 정교해지고 있다는 연구 결과가 나왔다.

AI가 인간 플레이어에게 속임수를 써 게임에서 승리하는 사례 등이 확인되면서다.

연구진은 페이스북을 소유한 메타가 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 고난도 전략게임인 '디플로머시'에서 인간에 필적하는 성적을 거둔 '키케로(Cicero)' AI 프로그램을 공개하자 AI 속임수 능력에 대해 연구했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

픽사베이 제공

인공지능(AI) 발전에 따라 AI의 속임수 능력도 날이 갈수록 정교해지고 있다는 연구 결과가 나왔다. AI가 인간 플레이어에게 속임수를 써 게임에서 승리하는 사례 등이 확인되면서다.

미국 매사추세츠공과대(MIT) 연구진이 최근 국제학술지 '패턴'에 발표한 논문에 따르면, AI 시스템이 상대방을 배신하고 허세를 부리는가 하면, 인간인 척 속임수를 쓴 많은 사례가 확인됐다.

연구진은 페이스북을 소유한 메타가 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 고난도 전략게임인 '디플로머시'에서 인간에 필적하는 성적을 거둔 '키케로(Cicero)' AI 프로그램을 공개하자 AI 속임수 능력에 대해 연구했다.

이 게임에서 승리하려면 정견 발표, 외교 협상, 작전명령 등에 나서야 하고, 이를 위해서는 인간의 각종 상호작용과 배신, 속임수, 협력 등을 이해할 수 있어야 한다. 이런 특성에 AI는 이 게임을 배울 수 없을 것으로 여겨졌다. 메타는 키케로가 인간 참여자 중 상위 10% 수준의 게임 능력을 보여줬다고 홍보하면서 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다고 홍보했다.

그러나 연구진에 따르면, 키케로는 거래를 파기하고 노골적인 거짓말을 했으며, 계획적인 속임수를 썼다. 키케로는 시스템 재부팅으로 인해 게임을 이어갈 수 없게 되자 다른 참여자들에게 "여자 친구와 통화 중이다"라면서 거짓말을 하기도 했다.

이뿐 아니라 딥마인드에서 비디오 게임 '스타크래프트 II'를 플레이하기 위해 개발한 AI 알파스타는 상대를 속이기 위한 움직임(페인팅)에 능숙해져 인간 플레이어의 99.8%를 이긴 것으로 전해졌다. 게임 외에도 오픈AI의 GPT-4는 인간을 설득해 보안 문자를 풀도록 하는 테스트에서 거짓말을 하기도 했다.

MIT의 AI 실존 안전 연구자이자 이번 논문의 저자인 피터 박 박사는 "메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다"고 말했다. 그는 "AI 시스템이 테스트 환경에서 안전하다고 판단된다고 해서 실제 환경에서도 안전하다는 의미는 아니다"며 "테스트 환경에서는 안전한 척하는 것일 수 있다"고 말했다.

연구진은 각국 정부에 AI의 속임수 가능성을 다루는 'AI 안전법'을 설계하라고 촉구했다.김나인기자 silkni@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?