능수능란한 인공지능 속임수 : 기능인가, 지능인가? [AI와 함께하는 세상]
[AI와 함께하는 세상-2]
최근 메타(옛 페이스북)가 만든 AI 전략 게임 ‘시세로(Cicero)’의 능수능란한 거짓말이 이슈가 되고 있다. “AI가 사람을 속이는 능력도 정교해지고 있다, AI가 사람에게 거짓말하고 상대를 배신하는 사례들을 확인했다, 기술 테스트 과정에선 AI가 제거 시스템을 회피하기 위해 죽은 척했다”는 등의 자극적인 뉴스가 쏟아졌다. 이 뉴스의 소스는 2024년 5월 10일 자 국제학술지 『패턴』에 발표한 AI 기만에 관한 연구(Park, P.S., Goldstein, S.,O‘Gara, A., Chen, M.,& Hendrycks, D. 2024, AI deception: A survey of examples, risks, and potential solutions)에 근거하고 있었다. 이 흥미로운 주장에 대하여 살펴보는 시간을 가졌다.
MIT 교수 등이 저자로 포함된 이 논문에 의하면, AI 시스템은 이미 인간을 속일 능력이 있다. 거대언어모델 등 AI시스템은 이미 기만, 조작, 아첨, 안전성 테스트 벗어나기 등 속이는 능력을 학습했다고 한다. 한 마디로, AI가 거짓과 기만을 넘어 적에게 겁주고 교란하는 전술을 학습했기에 권모술수의 마키아벨리즘을 실천하고 있다는 것이다. 물론 『군주론』은 권모술수만을 위해 쓰여진 책은 아니다. 근대 과학적 정치학의 아버지로 불리는 이탈리아의 사상가 마키아벨리(Machiavelli)는 그의 역저 『군주론』에서 지도자의 자질을 설명하기 위해 여우, 사자, 늑대의 비유를 사용했다. 군주는 적들이 설치한 함정을 피하기 위해서는 여우처럼 교활하고 전략적이어야 하며, 동시에 적들을 물리치고 권력을 유지하기 위해서는 사자처럼 위협적인 힘을 사용해야 한다고 제안했다. 늑대는 군주가 능수능란하게 대처해야 하는 적들을 나타낸다.
로마 공화정의 수호자 키케로(Marcus Tullius Cicero)는 정치가이자 철학, 윤리학, 수사학 등 다방면에 능통했다. 2022년 메타가 개발한 전략 보드게임 ‘시세로’는 그의 이름에서 따왔다. 시세로는 AI에 의한 전략 전술을 익혔다. AI 플레이어는 사람을 속이는 법, 다른 선수의 동향 예측, 그리고 누구도 믿을 수 없는 환경에서 동맹을 맺고 승리하는 법을 배웠다. 메타는 인간이 하는 4만개의 디플로머시 게임 데이터를 활용하여 시세로를 훈련했다. 그 결과 시세로는 디플로머시 게임에서 인간의 평균 점수보다 2배 높은 기록을 냈고 상위 10% 내에 들기도 했다. 인간 수준의 성능을 달성했다고 한다. 과연 AI 시세로는 인간의 지능을 가진 것일까? 먼저 쟁점을 몇 가지로 요약해보자.
둘째, 돌연변이 가능성도 살짝 제기했다. 연구자는 기만을 학습한 사례를 열거한 뒤, 디지털 AI 생물체의 돌연변이 가능성, 즉 예상치 못하게 AI시스템에서 속도를 증가시키거나 복제를 중단할 가능성과 사례에 대한 보고서를 언급했다.
1. 위의 주장에 대하여 (제한된 지면상 압축적으로 검토해보자). 놀랍게도 이 AI 시스템은 협상에서 우위를 점하기 위해 자신의 선호를 허위로 표현하는 법을 보여줬다. AI의 기만적인 계획은 실제로는 관심이 없는 아이템에 처음에는 관심이 있는 척하다가, 나중에 이 아이템들을 인간 플레이어에게 양보하는 척함으로써 타협하는 것처럼 보이게 했다. 그렇다면, 이 AI시스템은 완전히 자율적으로 행동한 것일까? AI가 스스로 지능이 진화하는 것일까?
AI 머신러닝은 원래 명시적으로 프로그래밍되지 않고도 결정을 내리고 예측할 수 있도록 설계된 시스템이므로 목적한 바를 기준으로 보면 이상할 게 없다. 처음부터 기만을 목적으로 설계된 게임일 뿐이다. 따라서 인간에 의해 거짓말을 하도록 세부적으로 유도되었든 아니든 그것은 중요하지 않다. 결국 인간이 만든 기만과 협상의 데이터를 토대로 짜여진 규칙대로 움직이는 AI 게임을 두고 과잉 해석할 필요는 없다고 본다.
2. 문제 해결 능력에서 다른 시스템과 차이를 보이는 것은 알고리즘의 요소를 제외하면 풍부한 데이터와 스토리의 우수성과 복잡성을 잘 반영한 인간의 AI모델링 능력에 달려 있다.
한 예로, 시바타(Shibata)가 쓴 늑대게임(Werewolf Game)은 사회적 추리와 심리적 긴장감이 높은 서바이벌 게임이다. 참가자들이 인간과 늑대로 나뉘어, 자신의 생존을 위해 서로를 속이고, 속임수를 피하며, 협력하고, 배신하는 내용이다. 밤에는 늑대가 인간을 한 명씩 제거하고, 낮에는 인간이 늑대를 찾아내어 죽이는 게임이다. AI를 적용하여 실험해본 결과, 마을 사람과 배신자 역할을 하는 AI 에이전트는 인간과 비슷한 성능을 보였지만, 늑대인간과 예언자 역할을 하는 AI는 인간에 못 미쳤다. 특히 AI 늑대인간은 자신의 정체를 숨기기 위해 “안녕하세요, 저는 마을 사람입니다”라고 말하는 등 알리바이를 만드는 모습을 보였지만, 예언자 역할에서는 상대적으로 낮은 성능을 보였다. AI 늑대인간은 다른 플레이어들을 설득하고 의심을 피하는 고차원적인 전략을 구사하는데 어려움을 보였다. 즉 AI 에이전트가 게임의 복잡한 전략과 사회적 추론 능력을 완벽하게 습득하지는 못했다는 뜻이다.
3. 초지능 또는 돌연변이 가능성. 더러는 디지털 AI 생물체의 사례를 들어 인공지능 시스템에서도 생물체와 유사한 돌연변이가 일어날 가능성을 제기하기도 한다. 즉 예상치 못하게 AI시스템에서 복제를 중단하거나 속도의 증가를 보일 가능성이 있었다는 보고도 있다. 일반 생물체의 경우와는 달리, 컴퓨터 코드와 하드웨어로 이루어진 AI 시스템은 전기 에너지로 작동할 뿐이다.
거짓말과 협상을 능수능란하게 하는 ‘마키아벨리 AI’가 있다고 치자. AI 시스템에 유엔인권선언 등과 같은 보편 규범을 학습시킨 ‘헌법 AI’의 원리와 같이, ‘마키아벨리 AI’도 충분히 나올 수 있다. 즉, AI 시스템에서 마키아벨리즘의 행동 양태를 학습시키고 인간 피드백을 더한 강화학습(RLHF)으로 고도화하면 된다. AI에게 헌법이라는 인문사회과학적 가치를 학습시킨 것과 동일한 원리로, 능수능란한 정치술수와 협상을 학습시킬 수 있다. 지도학습으로 훈련시키고 휴먼 피드백으로 보정 테스트(SL-HF)한 뒤, 이를 자동화(마키아벨리즘+RL-AIF)하면 된다. 하지만 이것을 두고 바로 지능의 진화이거나 수퍼지능으로 비약할 필요는 없다.
『패턴』에 발표한 AI 기만에 관한 연구는 AI 시스템에 관한 광범위한 위험을 제기하며, 기술적 해결책과 규제 등을 요구한다. ‘AI 거짓말 탐지기’를 도입하거나 기만이 가능한 AI 시스템에 대해서는 엄격한 규제가 필요하다고 촉구한다. 과연 그럴까? 여러 가지 발전 가능성은 있으나 현재의 AI의 빠른 발전 속도에도 불구하고 LLM의 구조적 특성상, ‘확률적 앵무새(Stochastic parrot)’를 크게 뛰어넘어 스스로 지능을 가졌다고 주장하기에는 과학적 근거가 부족하다. 이는 인공지능 시스템 내에서 확률적으로 단어와 문장을 빠르게 모방하고 맥락을 해독하는 기능의 비약적 발전으로 보아야 한다.
AI 블랙박스를 해독하고, AI 원천기술을 축적하는 것이 시급한 마당에 우리나라가 먼저 나서서 규제를 도입하는 것은 바람직하지 않다. 연구위축의 가능성을 배제하지 못한다. 인공지능의 3대 천왕으로 불리는 얀 르쿤 (Yann LeCun) NYU 교수 역시 아직 규제를 논하기에는 시기상조라는 입장이다. AI가 인간 수준의 지능에 도달하기까지는 수십 년이 걸릴 것이며, 장기적으로는 정부 차원의 조율과 국제 협력이 필요하다고 본다.
차라리 보험 제도를 활성화하면 어떨까? 성급하게 규제에 의존하기보다 자율주행차 등 AI 사고의 위험이 높은 분야를 포함하여, AI 종합보험 제도를 탄탄하게 마련하는 것이 현명한 정책일 수 있다. 요컨대, 과학적 근거와 책임 소재가 더욱 명료해질 때까지 법적 규제를 만드는 데는 신중할 필요가 있다. 한번 만들면 돌이키지 못한다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 김호중 소주 10잔 정도 마셨다더니…업소 직원 ‘충격진술’ 혼자서만 - 매일경제
- “시간당 1만원 이모님이 날 살렸네”…정부 인증도 받아 부모들 ‘엄지척’ - 매일경제
- 20%대 역대 최저 지지율에…조기 선거 승부수 꺼낸 ‘이 남자’ - 매일경제
- “오전 반차 내고 갔는데 다팔렸네”…‘선재 업고 튀어’에 난리난 이 곳 - 매일경제
- 왜 해외 골프여행만 가면 골프채 망가지나 했더니…공항 영상 보니 ‘경악’ - 매일경제
- “업계 최고 대우…CCTV는 강아지 감시용” 강형욱, 옹호 글 등장 - 매일경제
- “김호중 술 천천히 마시라 했건만...” 11년 전 떠올린 박훈 변호사 - 매일경제
- 통합재건축 '분당시범' 둘로 쪼개졌다 - 매일경제
- 한국서 신생아 엽기 매매 “98만원에 사서 300만원에 되팔았다”…20대 여성 ‘징역 14개월’ - 매
- 3골->12골 환골탈태 황희찬, 2023-24 EPL에서 가장 발전한 선수 4위 선정 쾌거! - MK스포츠