능수능란한 인공지능 속임수 : 기능인가, 지능인가? [AI와 함께하는 세상]

[AI와 함께하는 세상-2]

최근 메타(옛 페이스북)가 만든 AI 전략 게임 ‘시세로(Cicero)’의 능수능란한 거짓말이 이슈가 되고 있다. “AI가 사람을 속이는 능력도 정교해지고 있다, AI가 사람에게 거짓말하고 상대를 배신하는 사례들을 확인했다, 기술 테스트 과정에선 AI가 제거 시스템을 회피하기 위해 죽은 척했다”는 등의 자극적인 뉴스가 쏟아졌다. 이 뉴스의 소스는 2024년 5월 10일 자 국제학술지 『패턴』에 발표한 AI 기만에 관한 연구(Park, P.S., Goldstein, S.,O‘Gara, A., Chen, M.,& Hendrycks, D. 2024, AI deception: A survey of examples, risks, and potential solutions)에 근거하고 있었다. 이 흥미로운 주장에 대하여 살펴보는 시간을 가졌다.

MIT 교수 등이 저자로 포함된 이 논문에 의하면, AI 시스템은 이미 인간을 속일 능력이 있다. 거대언어모델 등 AI시스템은 이미 기만, 조작, 아첨, 안전성 테스트 벗어나기 등 속이는 능력을 학습했다고 한다. 한 마디로, AI가 거짓과 기만을 넘어 적에게 겁주고 교란하는 전술을 학습했기에 권모술수의 마키아벨리즘을 실천하고 있다는 것이다. 물론 『군주론』은 권모술수만을 위해 쓰여진 책은 아니다. 근대 과학적 정치학의 아버지로 불리는 이탈리아의 사상가 마키아벨리(Machiavelli)는 그의 역저 『군주론』에서 지도자의 자질을 설명하기 위해 여우, 사자, 늑대의 비유를 사용했다. 군주는 적들이 설치한 함정을 피하기 위해서는 여우처럼 교활하고 전략적이어야 하며, 동시에 적들을 물리치고 권력을 유지하기 위해서는 사자처럼 위협적인 힘을 사용해야 한다고 제안했다. 늑대는 군주가 능수능란하게 대처해야 하는 적들을 나타낸다.

로마 공화정의 수호자 키케로(Marcus Tullius Cicero)는 정치가이자 철학, 윤리학, 수사학 등 다방면에 능통했다. 2022년 메타가 개발한 전략 보드게임 ‘시세로’는 그의 이름에서 따왔다. 시세로는 AI에 의한 전략 전술을 익혔다. AI 플레이어는 사람을 속이는 법, 다른 선수의 동향 예측, 그리고 누구도 믿을 수 없는 환경에서 동맹을 맺고 승리하는 법을 배웠다. 메타는 인간이 하는 4만개의 디플로머시 게임 데이터를 활용하여 시세로를 훈련했다. 그 결과 시세로는 디플로머시 게임에서 인간의 평균 점수보다 2배 높은 기록을 냈고 상위 10% 내에 들기도 했다. 인간 수준의 성능을 달성했다고 한다. 과연 AI 시세로는 인간의 지능을 가진 것일까? 먼저 쟁점을 몇 가지로 요약해보자.

첫째, 이 연구는 AI 에이전트가 인간의 명시적인 설계 없이, 단순히 목표를 달성하려고 속이거나 교란, 또는 기만하는 법을 학습했다고 주장한다. 그렇다면, 정말 인간의 통제에서 벗어나 위험한 지능을 가진 것일까 ?

둘째, 돌연변이 가능성도 살짝 제기했다. 연구자는 기만을 학습한 사례를 열거한 뒤, 디지털 AI 생물체의 돌연변이 가능성, 즉 예상치 못하게 AI시스템에서 속도를 증가시키거나 복제를 중단할 가능성과 사례에 대한 보고서를 언급했다.

1. 위의 주장에 대하여 (제한된 지면상 압축적으로 검토해보자). 놀랍게도 이 AI 시스템은 협상에서 우위를 점하기 위해 자신의 선호를 허위로 표현하는 법을 보여줬다. AI의 기만적인 계획은 실제로는 관심이 없는 아이템에 처음에는 관심이 있는 척하다가, 나중에 이 아이템들을 인간 플레이어에게 양보하는 척함으로써 타협하는 것처럼 보이게 했다. 그렇다면, 이 AI시스템은 완전히 자율적으로 행동한 것일까? AI가 스스로 지능이 진화하는 것일까?

AI 머신러닝은 원래 명시적으로 프로그래밍되지 않고도 결정을 내리고 예측할 수 있도록 설계된 시스템이므로 목적한 바를 기준으로 보면 이상할 게 없다. 처음부터 기만을 목적으로 설계된 게임일 뿐이다. 따라서 인간에 의해 거짓말을 하도록 세부적으로 유도되었든 아니든 그것은 중요하지 않다. 결국 인간이 만든 기만과 협상의 데이터를 토대로 짜여진 규칙대로 움직이는 AI 게임을 두고 과잉 해석할 필요는 없다고 본다.

2. 문제 해결 능력에서 다른 시스템과 차이를 보이는 것은 알고리즘의 요소를 제외하면 풍부한 데이터와 스토리의 우수성과 복잡성을 잘 반영한 인간의 AI모델링 능력에 달려 있다.

한 예로, 시바타(Shibata)가 쓴 늑대게임(Werewolf Game)은 사회적 추리와 심리적 긴장감이 높은 서바이벌 게임이다. 참가자들이 인간과 늑대로 나뉘어, 자신의 생존을 위해 서로를 속이고, 속임수를 피하며, 협력하고, 배신하는 내용이다. 밤에는 늑대가 인간을 한 명씩 제거하고, 낮에는 인간이 늑대를 찾아내어 죽이는 게임이다. AI를 적용하여 실험해본 결과, 마을 사람과 배신자 역할을 하는 AI 에이전트는 인간과 비슷한 성능을 보였지만, 늑대인간과 예언자 역할을 하는 AI는 인간에 못 미쳤다. 특히 AI 늑대인간은 자신의 정체를 숨기기 위해 “안녕하세요, 저는 마을 사람입니다”라고 말하는 등 알리바이를 만드는 모습을 보였지만, 예언자 역할에서는 상대적으로 낮은 성능을 보였다. AI 늑대인간은 다른 플레이어들을 설득하고 의심을 피하는 고차원적인 전략을 구사하는데 어려움을 보였다. 즉 AI 에이전트가 게임의 복잡한 전략과 사회적 추론 능력을 완벽하게 습득하지는 못했다는 뜻이다.

인공지능 언어모델은 아직 ‘확률적 앵무새’ 수준을 크게 뛰어넘지 못한 것으로 파악된다.
https://goodinternet.substack.com/p/im-a-dead-stochastic-parrot-mr-jones — 인공지능 언어모델은 아직 ‘확률적 앵무새’ 수준을 크게 뛰어넘지 못한 것으로 파악된다. https://goodinternet.substack.com/p/im-a-dead-stochastic-parrot-mr-jones

결론적으로, AI 늑대게임은 특정한 상황에서의 구성된 비교적 단순한 생존 추리 게임이고, AI 시세로 게임은 고대 로마의 뛰어난 정치가이자 철학자인 키케로의 정치 전략, 철학적 논증, 역사적 시뮬레이션, 고급 협상 기술 등이 복합적으로 들어가는 고급 협상 심리 게임이다. 이는 외교 전략에서 복잡한 인간의 심리와 협상, 거래, 배신 등을 복합적으로 보여주는 게임이기 때문에 스토리의 성격상 풍부한 기만과 술수의 데이터로 고도의 훈련을 시킬 수 밖에 없다. 하지만 이것도 ‘패턴 속에 있는 게임’이다. 게임의 규칙 자체가 복잡한 전략과 사회적 상호작용을 포함하는 것일 뿐이다.

3. 초지능 또는 돌연변이 가능성. 더러는 디지털 AI 생물체의 사례를 들어 인공지능 시스템에서도 생물체와 유사한 돌연변이가 일어날 가능성을 제기하기도 한다. 즉 예상치 못하게 AI시스템에서 복제를 중단하거나 속도의 증가를 보일 가능성이 있었다는 보고도 있다. 일반 생물체의 경우와는 달리, 컴퓨터 코드와 하드웨어로 이루어진 AI 시스템은 전기 에너지로 작동할 뿐이다.

출처:MS Bing - 시바타(Shibata)의 늑대게임(Werewolf Game)

2016년에 있었던 딥마인드의 알파고(AlphaGo) 역시 인간 챔피언을 이기면서 기존에 알려진 바둑 정석과는 다른 독특한 수들을 두었다고 하여 ‘초인적’ 바둑이라고 표현하기도 했다. 하지만 이는 드라마틱한 묘사일 뿐, 실제로 ‘초지능’을 자체 생성한 것은 아니다. 알파고가 강화학습과 딥러닝으로 수백만 번의 스스로 학습(self-supervised learning)을 통해 반복적으로 실력을 향상시킨 결과일 뿐, 초지능이나 돌연변이는 아니다. 그저 양적 발전이 질적 전환을 가져온 것과 같은 원리이다. 생성형 AI가 괄목할만한 언어적 능력을 보여주지만, ‘초지능 현상’이나 ‘돌연변이’라고 하지는 않는다.

거짓말과 협상을 능수능란하게 하는 ‘마키아벨리 AI’가 있다고 치자. AI 시스템에 유엔인권선언 등과 같은 보편 규범을 학습시킨 ‘헌법 AI’의 원리와 같이, ‘마키아벨리 AI’도 충분히 나올 수 있다. 즉, AI 시스템에서 마키아벨리즘의 행동 양태를 학습시키고 인간 피드백을 더한 강화학습(RLHF)으로 고도화하면 된다. AI에게 헌법이라는 인문사회과학적 가치를 학습시킨 것과 동일한 원리로, 능수능란한 정치술수와 협상을 학습시킬 수 있다. 지도학습으로 훈련시키고 휴먼 피드백으로 보정 테스트(SL-HF)한 뒤, 이를 자동화(마키아벨리즘+RL-AIF)하면 된다. 하지만 이것을 두고 바로 지능의 진화이거나 수퍼지능으로 비약할 필요는 없다.

『패턴』에 발표한 AI 기만에 관한 연구는 AI 시스템에 관한 광범위한 위험을 제기하며, 기술적 해결책과 규제 등을 요구한다. ‘AI 거짓말 탐지기’를 도입하거나 기만이 가능한 AI 시스템에 대해서는 엄격한 규제가 필요하다고 촉구한다. 과연 그럴까? 여러 가지 발전 가능성은 있으나 현재의 AI의 빠른 발전 속도에도 불구하고 LLM의 구조적 특성상, ‘확률적 앵무새(Stochastic parrot)’를 크게 뛰어넘어 스스로 지능을 가졌다고 주장하기에는 과학적 근거가 부족하다. 이는 인공지능 시스템 내에서 확률적으로 단어와 문장을 빠르게 모방하고 맥락을 해독하는 기능의 비약적 발전으로 보아야 한다.

AI 블랙박스를 해독하고, AI 원천기술을 축적하는 것이 시급한 마당에 우리나라가 먼저 나서서 규제를 도입하는 것은 바람직하지 않다. 연구위축의 가능성을 배제하지 못한다. 인공지능의 3대 천왕으로 불리는 얀 르쿤 (Yann LeCun) NYU 교수 역시 아직 규제를 논하기에는 시기상조라는 입장이다. AI가 인간 수준의 지능에 도달하기까지는 수십 년이 걸릴 것이며, 장기적으로는 정부 차원의 조율과 국제 협력이 필요하다고 본다.

차라리 보험 제도를 활성화하면 어떨까? 성급하게 규제에 의존하기보다 자율주행차 등 AI 사고의 위험이 높은 분야를 포함하여, AI 종합보험 제도를 탄탄하게 마련하는 것이 현명한 정책일 수 있다. 요컨대, 과학적 근거와 책임 소재가 더욱 명료해질 때까지 법적 규제를 만드는 데는 신중할 필요가 있다. 한번 만들면 돌이키지 못한다.

[여현덕 카이스트 G-School 원장/기술경영대학원 교수]

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.