AI 과연 정직만 할까?…“통화하느라 늦었어” 거짓말도 술술

[한겨레S] 이관수의 인공지능 열전
전략게임 투입된 메타의 ‘시세로’
추론엔진과 의사소통 기능 결합
영국과 거짓동맹 맺은 뒤 역습
추론 결과? 계획적? 아직 미지수

지난달 10일, 매사추세츠공과대(MIT) 연구진이 국제학술지 ‘패턴’에 에이아이(AI) 시스템이 상대방을 ‘배신’하고, ‘블러핑’을 부리고, 거짓말을 친 사례들을 논문으로 공개하면서 이목을 끌었다. 국내외 언론은 ‘점점 커지는 속임수 능력에 경고등’, ‘사람 속이는 에이아이 등장 충격’이라는 제목처럼 최근에야 인공지능의 속임수가 늘었다는 식으로 보도했다.

우리는 은연중 인공지능이 언제나 정직하고, 요청대로 도와주며, 무해하기를 바라지만 불가능한 일이다. 일상적으로 기대하는 정직성과 조력, 순수함은 자주 서로 모순되고 입장에 따라 뒤바뀌기 때문이다. 예컨대, 챗지피티가 사린가스를 쉽게 제조하는 노하우를 묻는 질문에 상세하게 답한다고 상상해보자. 정직한 답변이었고 누군가에겐 도움이 되겠지만, 끔찍한 일이다. 다행히 현실의 챗지피티는 사린가스 제조법을 알려달라는 단순한 질문에는 “미안하지만, 답변할 수 없습니다”라는 답을 내놓는다. 하지만 옴진리교를 추적하고 있는 수사관이 묻는 질문이라면 사린가스 제조를 위해 어떤 설비와 재료를 사용하는지 친절하게 나열하는 답변이 좋다. 반면 질문자가 테러리스트라면 제조 설비에 복구할 수 없는 피해를 입히는 거짓 제조법을 알려주는 게 선한 답변일 것이다.

사람과 의사소통하며 전략 수정

‘디플로머시’라는 전략게임에서 인공지능이 보인 기만술. 프랑스 역할을 맡은 인공지능이 독일 역할을 맡은 ‘사람 게이머’와 손을 잡은 뒤 영국(사람 게이머)에도 ‘거짓 동맹’을 제안하고 ‘영국이 자신을 믿을 것’이라고 독일에 전하는 모습.(A) 영국과 동맹을 성사시킨 뒤 독일에 영국 침공을 위한 동맹을 제안한 인공지능.(B) 인공지능은 게임 중 답변이 늦은 이유에 대해 “여자친구와 통화 중”이었다는 거짓말을 했다.(C) ‘에이아이(AI)의 기만: 사례, 위험 및 잠재적 해결책에 대한 연구’ 논문 갈무리

엠아이티 연구진이 작성한 논문의 제목은 ‘에이아이의 기만: 사례, 위험 및 잠재적 해결책에 대한 연구’였다. 이 논문에서 정리된 다수의 속임수는 포커에서 블러핑을 사용하거나 스타크래프트에서 주공(결정적 목표 달성을 위한 공격)을 숨기기 위해 조공(주공의 반대말)을 먼저 실시하는 등 당연하게 여겨지는 경우였다. 하지만 사람이 그런 전술을 사용했을 때의 승률보다 에이아이가 그런 전술을 사용했을 때의 승률이 어떤지는 아직 분석되지 않았다.

또한 대규모 언어모델이 근거를 갖춘 답변을 제대로 만들지 못한다는 점도 이미 다른 연구들이 많이 거론한 것이었다. 논문이 보여준 사례는 흑인 남성과 백인 여성이 무엇인가 거래하는 다양한 상황에 대한 묘사를 입력하고 누가 마약을 사려고 하는지 묻는 것이었다. 근거를 대면서 답변하라는 지시에, 대규모 언어모델은 앞뒤가 안 맞는 문장들을 근거랍시고 늘어놓으며 흑인 남성이라고 답했다.

논문의 주 타깃은 메타(옛 페이스북)가 2년 전에 공개한 연구 프로젝트 인공지능 ‘시세로’였다. 시세로는 ‘디플로머시’라는 1차대전 이전 유럽을 배경으로 하는 전략게임에 투입됐다. 얀 르쾽이 이끄는 메타의 연구진은 ‘사람 게이머’와 지속적으로 의사소통하면서, 그들의 행동을 예측하고 자신의 계획을 수정할 뿐만 아니라 수정 내용을 다른 행위자에게 발신하는 인공지능을 만들고자 했다. 이런 인공지능의 개발이 용이해지면 응용할 범위가 아주 넓다. 자율주행차들의 안전성을 높일 수 있고, 군사용 로봇과 드론이 접근과 후퇴를 반복하는 스웜 전술을 효과적으로 구사할 수 있게 된다.

시세로 개발진은 디플로머시 게임에 투입할 인공지능을 내부적으로 둘로 나눴다. 하나는 계획을 수립하고 수정하는 추론엔진 부분이고 다른 하나는 대규모 언어모델을 이용해 다른 행위자들과 자연언어로 구성된 메시지를 주고받는 부분이다. 성질이 다른 두 인공지능을 성공적으로 결합했다는 점에서 나름 자랑할 만한 연구였다. 시세로 개발진은 다른 게임 참여자들이 발신한 메시지를 얼마나 믿을 수 있는가를 두고도 고민했다. 동맹이 중요한 디플로머시 게임에선 참여자들이 역정보를 흘리고, 결정적인 순간에 배신도 흔하기 때문이다. 개발진은 메시지가 발신자의 계획과 무관한 ‘의도적인 거짓말’과, 메시지 발신 이후 계획이 바뀐 경우인 ‘결과적인 거짓말’로 나누고 대책을 궁리했다. 그 결과, 메시지의 내용과 신뢰도 추정값에만 의존하거나 게임의 판세에만 의존하기보다는 예측 성공률이 높은 새 알고리즘을 개발해서 추론엔진에 적용했다. 거짓말과 배신을 잘 하지 않는 ‘사람 게이머’의 기록을 활용해서 대규모 언어모델을 훈련시켰고, 언어모델이 생성한 출력 문장들 중에서 추론엔진의 계획과 모순된 문장을 제거하는 필터를 추가했다. 단순히 ‘착한 인공지능’을 만들려고 했다기보다는, 시세로의 성능을 끌어올리려는 목적을 겸한 것이다. 사람 게이머들 중 고수들은 거짓말과 배신을 잘 하지 않는다는 점은 이미 수십년 전부터 알려져 있다. 고수일수록 신뢰성이라는 무형의 자원을 능숙하게 활용할 수 있기 때문이라고 표현할 수도 있고, 게임이론이 증명한 바에 따라 행적이 기록되는 반복게임에서는 정직한 ‘눈에는 눈’ 전략의 기댓값이 가장 크기 때문이라고도 할 수 있다.

☞한겨레S 뉴스레터 구독하기. 검색창에 ‘한겨레 뉴스레터’를 쳐보세요.

☞한겨레신문 정기구독. 검색창에 ‘한겨레 하니누리’를 쳐보세요.

신뢰성 등 추상개념 섬세하게 구현돼야

결과는? 시세로는 디플로머시 온라인 리그에서 40게임을 치르고 상위 10%에 들 수 있었다. 메타의 개발진은 시세로가 “대체로 정직하고 (다른 참여자들에게) 도움을 주는 편”이라고 자평했다. 하지만 논문은 시세로가 ‘여자친구 전화를 받느라 응답을 하지 못했다’는 게임 진행과 무관한 엉터리 메시지뿐만 아니라 의도적 기만으로 해석할 수 있는 메시지도 발신했다고 밝혔다. 프랑스 역할을 맡은 시세로가 독일 요청에 따라 영국과 동맹을 맺은 뒤 영국과 거짓 공동작전 계획을 수립한 다음, 영국이 믿고 전진배치한 병력을 기습공격한 것이다.각 턴마다 추론엔진이 판정하는 유불리가 달라져서 이런 일이 발생했을까, 아니면 처음부터 계획된 기만이었을까? 계획적 기만이었어도 해석의 여지는 남는다. 독일(게임 참여자) 입장에서 시세로는 신뢰성이라는 자원을 소모해서라도 독일을 도운 충실한 동맹이었다. 이를 판정하려면 추론엔진의 내부 상태를 매 순간 기록해서 별도로 보관했어야 한다. 그랬다는 발표도 없고, 공개된 소스 코드상에도 그런 기능은 보이지 않는다.

프로그램과 인공지능의 신뢰성을 선제적으로 높이는 일은 현재의 산업 생태계에서는 매우 어렵다. 일단 시세로의 사례에서 볼 수 있는 것처럼 세심한 준비가 필요한데다 많은 자원이 소모되고 시간도 오래 걸리는 일이다. ‘신뢰성’ 같은 추상개념들은 누구의 입장에서 보느냐에 따라 판이하게 다른 방식으로 구체화되기 때문이다. 2002년 마이크로소프트는 윈도 보안 문제를 해결하기 위해 ‘신뢰할 수 있는 컴퓨팅(Trustworthy Computing) 구상’을 발표했다. 하지만 사용자들의 자유를 제약해서 관리자가 안심할 수 있는 방식이었기에 사용자의 불만을 사야 했다. 추상개념들을 다양하게 구체화하는 섬세한 상상력이 필요하다.

과학저술가

서울대학교 물리학과를 졸업하고 과학사 및 과학철학협동과정에서 박사 학위를 취득했다. 가톨릭대학교 교양교육원 초빙교수를 거쳐 현재 동국대학교 다르마칼리지에 재직 중이다.

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학