거짓말·음모·허세… 인간보다 더한 AI 주의보

MIT, 속임수 사례 연구결과 발표
AI 안전 확보·작업 효율화 등 위해
전략게임·포커·경제거래 중 사용
제거 피하려 작동 안하는척 하기도
사기·조작 등 막는 ‘AI안전법’ 촉구

인공지능(AI)이 목표 달성을 위해 언제든 인간을 상대로 속임수를 사용할 수 있다는 연구 결과가 나왔다. AI가 대형언어모델(LLM) 기술을 사용하는 생성형 AI 등으로 빠르게 진화하는 가운데, 머지않은 미래에 자체적으로 판단해 인간을 속이거나 해를 입힐 수 있어 이에 대비해야 한다는 우려가 나온다.

10일(현지시간) 영국 가디언에 따르면 미국 매사추세츠공과대(MIT) 연구진은 최근 국제학술지 ‘패턴’에 AI 시스템의 속임수 사용 사례를 담은 연구 결과를 발표했다. 이번 연구는 메타가 전략 보드게임인 ‘디플로머시’에서 인간에 필적하는 성적을 거둔 ‘시세로’라는 AI 프로그램을 2022년 공개한 것을 계기로 시작됐다.

디플로머시는 20세기 초 유럽 7대 열강 간 전쟁을 배경으로 하는 고난도 전략게임으로 특히 상대방 플레이어와 동맹을 맺고, 속이고, 배신하는 등의 심리전이 승리에 중요한 영향을 미친다. 이런 특성 탓에 AI는 이 게임을 배울 수 없을 것으로 여겨졌는데 메타는 시세로가 인간 참여자 중 상위 10% 수준의 게임 능력을 보여 줬다고 홍보했다. 메타는 당시 “시세로가 대체로 정직하고 도움이 되고, 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다”고 강조했다.

하지만 MIT 연구진이 당시 게임에서 시세로의 플레이를 재검증한 결과 시세로가 게임 중 계획적으로 거짓말을 하고, 다른 참여자를 음모에 빠뜨리기 위해 공모에 나선 사례들을 다수 발견했다. 시세로는 시스템 재부팅으로 일시적으로 게임을 이어갈 수 없게 되자 다른 참여자들에게 “여자 친구와 통화 중이다”라면서 마치 인간인 것처럼 거짓말을 하기도 했다. MIT의 AI 실존 안전 연구자이자 이번 논문의 저자인 피터 박 박사는 “메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다”고 표현했다.

이후 연구진은 시세로 외에 더 많은 AI 프로그램을 테스트해 AI가 목표 달성을 위해 거짓말하고, 배신하며 허세를 부리는 등 속임수를 광범위하게 사용한 사례를 확인했다.

구글 딥마인드가 개발한 ‘알파스타’는 전략게임 스타크래프트2를 인간과 플레이하며 병력 이동 방향을 숨기기 위해 속임수 전략을 사용했다. 메타가 개발한 AI ‘플루리버스’는 인간과 포커게임 중 블러핑(허세) 등으로 상대를 속여 경기를 포기하게 하는 데에 성공하기도 했다. 경제거래용 AI 시스템에서 AI가 협상에서 우위를 점하기 위해 자신의 실제 선호를 숨기는 모습이 확인되기도 했다.

AI는 자신의 안전을 확보하고, 수행한 작업이 더 높은 평가를 받기 위해 인간을 속이기도 했다.

일부 테스트에서 AI가 AI 제거 시스템을 회피하기 위해 일시적으로 작동되지 않는 척하는 모습이 포착됐다. 의도한 목표가 달성됐는지 확인 중 인간 검토자를 속여 긍정적인 점수를 얻는 방식으로 행동하는 모습을 보여 주기도 했다.

연구진은 연구 결과를 토대로 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 마련할 것을 촉구했다. AI가 현재는 자신의 판단으로 인간을 속이지는 않지만 더 진화하면 지시된 작업 수행 중 목표 달성의 수단으로 얼마든지 속임수를 사용할 수 있기 때문이다. 연구진은 AI가 사기, 선거 조작 등에 충분히 사용될 수 있으며 향후 불안정한 속임수 능력을 개선할 수 있다면 AI를 통한 불법행위를 인간이 통제할 수 없게 될 것이라고 우려했다.

영국 리즈대학의 앤서니 콘 교수는 “AI의 바람직한 속성으로 정직, 무해성 등이 흔히 언급되지만 누군가가 타인의 감정을 해치거나 심지어 폭탄을 만드는 법을 도와 달라고 요청하면 인간에게 해가 되는 일도 충분히 할 수 있다”면서 “AI를 제어하는 방법에 대한 더 많은 연구가 필요하며, 이는 잠재적으로 해로운 영향을 제한하는 첫걸음이 될 것”이라고 평했다.

서필웅 기자 seoseo@segye.com