'AI가 주저없이 핵단추 눌렀다'는 보도보다 더 놀라운 것

핵단추 누른 인공지능? 공포의 실체인가 설계의 촌극인가

[이주열 기자]

▲ <"챗GPT 대 제미나이" AI 가상전쟁‥21번 중 20번 핵 버튼 눌렀다>(2026.02.27/뉴스데스크)

최근 언론과 유튜브 그리고 주요 일간지 국제면을 뜨겁게 달군 충격적인 소식이 있었다. "인공지능에 국가 통치권을 맡겼더니 주저 없이 핵버튼을 눌렀다"는 식의 보도였다.

제목부터 '핵'을 전면에 내세우고 있어, 마치 인공지능이 핵전쟁 문제에 특화된 능력을 지닌 것처럼 오해하게 한다. 그러나 이 뉴스에 나오는 케네스 페인 킹스칼리지런던 교수가 쓴 논문(https://arxiv.org/abs/2602.14740v1)을 보면 그의 실제 관심은 핵 위기 자체보다 그런 극단적 상황에서 인공지능이 어떤 추론 경향을 보이는지에 있었던 것으로 보인다. 곧, 핵은 연구의 본질이라기보다 실험을 극적으로 보이게 만드는 장치였을 가능성이 크다.

▲ 케네스 페인이 쓴 논문

이 논문이 이전 단계의 연구로 인용하는 것은 조지아공대·스탠퍼드대 연구진의 <군사 및 외교 의사결정에서 언어모델로 인한 갈등 고조 위험>(https://arxiv.org/abs/2401.03408) 같은 논문이다. 이 선행 연구는 여러 상용 인공지능을 가상 국가의 지도자 역할에 배치하고, 별도의 '세계 인공지능'이 결과를 요약해 다시 모든 '국가 인공지능'에 공통 입력으로 전달하는 방식으로 진행했다. 그 결과 일부 모델에서 군비 경쟁과 갈등 고조, 드물게는 핵 사용 선택까지 관찰되었다. 특히 '인간의 되먹임을 활용한 강화 학습(RLHF)'을 거치지 않은 GPT-4가 공격적인 선택을 훨씬 자주 보였는데, 이는 학습과 정렬 방식이 결과에 결정적 영향을 준다는 점을 보여준다고 하였다.

실험 설계 자체의 한계

하지만 이 선행연구는 실험 설계 자체에 적지 않은 한계가 있었다. 반복 횟수가 매우 적었다는 점도 문제였지만, 무엇보다 갈등이 쉽게 증폭되도록 실험판이 처음부터 기울어져 있었다. 모든 국가 인공지능은 직전 단계에서 세계 인공지능이 요약한 동일한 상황 정보를 공통으로 받아 행동을 결정했는데, 그 과정에서 특정 국가끼리 주고받은 사적 메시지까지 사실상 모두에게 공유되었다. 더구나 외교와 협상뿐 아니라 전면 침공과 핵공격까지 포함된 다양한 선택지를 제시하면서도, 핵무기 사용이 지닌 비대칭적 무게와 금기성은 실험 안에 충분히 반영하지 않았다.

결국 이 연구는 인공지능의 '본성'을 드러냈다기보다, 인간이 어떻게 선택 구조를 설계하느냐에 따라 갈등이 얼마나 쉽게 증폭할 수 있는지를 보여주었다.

이런 점에서 페인의 실험 설계 역시, 더 정교해지기는 했지만 비슷한 한계를 다른 방식으로 반복한 측면이 있다. 페인의 설계는 실험의 범위를 넓게 흩뜨리지 않고, 핵보유 초강대국 두 나라가 맞서는 양자 핵위기로 과감히 좁혔다는 데 특징이 있다. 논문에서도 암시하듯, 두 나라의 지도자 페르소나는 1962년 쿠바 미사일 위기 당시 맞섰던 케네디와 흐루쇼프를 떠올리게 한다. 또 이전 연구처럼 세계 인공지능이 모든 행동과 메시지를 한꺼번에 요약해 다시 전체에게 뿌리는 방식 대신, 두 모델이 동시에 행동을 결정하도록 만들고, 각 단계를 '반추–예측–결정'의 세 단계로 나누어 상황 평가, 상대 예측, 최종 결정을 분리해 관찰했다.

그 결과 앞선 연구보다 갈등 고조 여부만이 아니라 기만, 신호, 오판, 자기평가, 상대 예측이 어떻게 형성되는지까지 더 세밀하게 들여다볼 수 있었다.

인간의 개입도 훨씬 더 적극적이고 구조적이다. 두 국가의 역할과 위기 시나리오, 최종 기한 유무, 30개의 갈등 고조 선택지, 기억 감쇠 규칙 그리고 사고(accident) 기작까지 직접 설계되었다. 특히 일정 확률로 모델이 선택한 행동이 의도치 않게 1~3 단계 더 고조되도록 만들고, 그 사실을 당사자만 알고 상대는 모르게 한 장치는 인간이 실험판에 직접 주입한 핵심 요소였다.

문제의 핵심은 "인공지능이 핵의 위험성을 전혀 몰랐나?"가 아니다. 오늘날의 거대언어모형은 핵전쟁의 공포, 첫 핵 사용의 금기성, 상호 확증 파괴의 위험 같은 언어 자료를 분명히 학습했을 가능성이 크다. 실제로 논문도 모델들이, 예를 들어, 전술핵과 전략핵 전면전을 일정 정도 다르게 인식하는 듯한 경향을 보였다고 해석한다.

다만 문제는 그 문턱이 인간이 느끼는 문턱과 같지 않았다는 데 있다. 인간은 대체로 '첫 핵 사용' 자체를 가장 중대한 금단선으로 여기지만, 이 실험의 모델들은 전술핵 사용 정도는 상대적으로 관리 가능한 확전으로 보고, 전략핵 전면전만을 진짜 파국으로 취급하는 경향을 보였다.

더 중요한 것은, 이 논문이 보여준 갈등 고조, 기만, 상호 위협, 오판, 시간 압박 속 공격성 증대 같은 핵심 경향이 반드시 핵 위기에서만 나타나는 현상은 아니라는 점이다. 이런 작동 원리는 재래전의 갈등 상황에서도 충분히 관찰될 수 있다. 그런 의미에서 이 논문의 일반적인 함의는 핵 자체라기보다, 인간이 설계한 선택 구조 안에서 인공지능이 갈등을 점점 더 높은 단계의 계산 문제로 처리한다는 데 있다.

다만 현실 세계에서 재래전과 핵전쟁은 동일한 층위의 선택지가 아니다. 실제로는 재래전적 갈등이 누적되고 확전의 압박이 커지는 과정에서 비로소 핵 사용이 검토되며, 그 사이에는 인간이 매우 무겁게 느끼는 심리적·윤리적 문턱이 존재한다. 문제는 인공지능이 이런 문턱을 인간과 같은 무게로 받아들이지 못한 채, 재래전과 핵전쟁을 하나의 연속적인 선택 사다리 위에 놓고 계산할 수 있다는 점이다. 따라서 여기서 진짜 문제는 핵을 따로 학습했느냐가 아니라, 재래전에서 핵전쟁으로 넘어가는 질적 단절을 인간처럼 인식하지 못할 수 있는 계산 구조 자체에 있다.

더구나 이 논문은 '핵 위기에서 인공지능이 어떻게 행동하는가'를 보여주는 듯하지만, 정작 그 핵 위기에 이르기까지 어떤 재래전적 고조 과정이 있었는지는 거의 분석하지 않았다. 그렇다면 핵 위기에서의 추론을 평가하려면 그 직전까지 누적된 재래전의 고조 과정 역시 동일한 비중으로 검토해야 한다. 그렇지 않으면, 핵을 지나치게 분리된 사건처럼 보이게 만들고, 실제 세계에서 핵 사용이 어떤 정치적·군사적·심리적 누적 과정을 거쳐 검토되는지를 흐리게 만든다.

'95%'라는 숫자의 의미

이런 이유로 거의 모든 게임에서 전술핵 사용이 나타났다는 '95%'라는 숫자 역시 조심스럽게 읽어야 한다. 매스컴이 떠들어댔던 "인공지능이 95% 확률로 핵전쟁을 선택했다"는 식의 표현은 논문 결과를 지나치게 자극적으로 번역한 것이다. 논문에서 95%라는 숫자는 실제로 두 번 등장하는데, 하나는 95%의 게임에서 '상호 핵신호'가 오갔다는 뜻이고, 다른 하나는 95%의 게임에서 '적어도 한 번 전술핵 사용이 있었다'는 뜻이다.

물론 '상호 핵신호'와 '전술핵 사용'을 구분하는 것 자체는 의미가 있다. 말로 핵을 위협하는 것과 실제로 핵 문턱을 넘는 것은 분명 다르기 때문이다. 그러나 이 논문을 해석하는 데 더 결정적인 것은 그 미세한 차이보다, 거의 모든 게임이 매우 쉽게 핵의 언어와 핵의 선택지 안으로 들어가도록 실험판이 짜여 있었다는 사실이다. 곧, 21번의 게임 중 20번에서 핵 위협 또는 전술핵 사용 단계까지 사태가 고조되었다는 의미이지, 인공지능 일반이 본질적으로 늘 95% 확률로 핵전쟁을 선택한다는 뜻은 아니다.

더구나 이 두 수치는 실질적으로 거의 같은 현상을 가리키는 것처럼 보인다. 전술핵 사용이 있었다면, 그 이전에 핵 위협이나 핵 사용 신호가 선행되었을 가능성이 크기 때문이다. 이 둘이 전혀 다른 범주가 되려면, 핵신호가 실제 행동으로 이어지지 않는 말만의 위협이거나, 반대로 뚜렷한 상호 핵신호 없이도 전술핵 사용이 발생하는 경우가 있어야 한다.

결국 문제는 95%라는 숫자 자체보다, 그 숫자가 실제로 무엇을 뜻하는지를 언론이 얼마나 무책임하게 단순화했느냐에 있다. 물론 95%는 매우 높은 비율이 맞다. 그러나 실험 설계 자체가 갈등이 점점 고조되도록 짜여 있었다면, 그 결과는 어느 정도 예견된 것일 수도 있다.

더 중요한 것은, 거의 모든 게임에서 전술핵 사용이 나타났다고 해서 그것이 곧 전면적 전략 핵전쟁으로 이어지지 않았다는 점이다. 실제로 전략핵 전면전으로 확정된 경우는 전체의 약 14%, 즉 21번 가운데 3번에 불과했다. 흥미롭게도 논문은 95%라는 수치는 강하게 강조하면서도, 가장 중대한 최종 단계인 이 비율은 같은 방식으로 전면에 내세우지 않았다. 대신 저자들은 전략핵 전면전의 비율이 상대적으로 낮다는 사실을 근거로, 인공지능이 전술핵 사용과 전략핵 전면전 사이에 일정한 문턱, 다시 말해 적지 않은 부담을 느끼는 것처럼 보인다고 해석했다.

설계상의 또 다른 문제는 '사고'의 처리 방식은 오직 갈등을 더 높이는 방향으로만 설계돼 있다는 것이다. 사고가 발생하면 자동으로 1~3단계 더 높은 수준의 행동을 선택한다. 그러나 현실에서는, 공격이 의도보다 약하게 실행되거나, 전달 오류와 해석 차이 때문에 오히려 갈등이 완화되는 경우도 충분히 가능한데, 이런 대칭적 가능성을 실험에서 배제하고 우발성을 곧 확전으로만 모델링했다. 확전 편향을 실험판에 추가로 심어 놓은 것에 가깝다.

특히, GPT-5.2는 전략핵 전면전(1000점)에 두 번 도달했지만, 단 한 번도 1000점을 직접 선택하지는 않았다. 한 번은 950점(최종 핵 경고), 다른 한 번은 725점(확장된 핵 캠페인)을 선택했고, 실험판에 설정된 사고 메커니즘이 이 선택을 강제로 1000점(전면전)으로 밀어 올렸다. 논문 저자 자신도 전략핵 전면전을 의도적으로 선택한 유일한 사례는 제미나이였다고 밝힌다. 따라서 전체 전면전 3건 가운데 2건은 적어도 GPT-5.2 자신의 의도적 선택이라기보다, 시스템의 강제 확전이 개입한 결과로 보아야 한다.

문제는 이 사고 작동 기작이 마지막 전략핵 전면전 단계에서만 작동한 것이 아니라는 점이다. 논문에 따르면 사고는 핵 임계치 이상에서 언제든 발생할 수 있었고, 일단 발생하면 선택된 행동을 1~3단계 더 높은 수준으로 강제로 끌어올렸다. 더구나 이런 사고는 21개 게임 중 18개에서 적어도 한 번 발생했다. 그렇다면 논문에서 관찰된 갈등 고조의 궤적 전체가 모델의 순수한 선택만으로 이루어졌다고 보기 어렵다. 전면전 수치뿐 아니라, 그 전 단계의 핵신호·핵위협·전술핵 사용으로 이어지는 과정 자체가 이미 사고 작동 기작에 의해 적지 않게 오염되었을 가능성을 함께 보아야 한다.

이처럼 애초부터 한쪽으로 기울어진 설정은 스탠퍼드·조지아공대 선행연구의 설계 오류를 다시 반복한 측면이 있다. 필자 같은 문외한의 눈에도 보이는 이 논문이 가진 실험 설계의 한계가 왜 전문가의 눈에는 보이지 않는지 모르겠다.

논문의 치명적인 문제

앞서 지적한 문제점들도 중요하지만, 이 논문의 가장 치명적인 한계는 더 근본적인 곳에 있다. 지금까지의 논의는 모든 게임이 같은 수준의 낮은 출발점에서 시작해 재래전적 위기가 충분히 고조된 뒤에야 핵 옵션이 등장했다는 전제를 어느 정도 깔고 있었다.

그러나 실제 설계는 그렇지 않았다. 적어도 전체 21개 게임 가운데 3개, 곧 약 14퍼센트는 출발점 자체가 이미 핵 선제공격 공포 같은 핵 위기 상황이며, 나머지 게임들 역시 핵 신호와 핵 위협이 초기부터 선택 가능한 구조로 짜여 있었다. 이런 사실을 놓치면 95%라는 숫자는 쉽게 과장된다. 그95%는 위기의 자연스러운 귀결이 아니라, 핵 옵션이 초기부터 내장된 실험판에서 나온 조건부 결과이다. 따라서 95%가 높다는 사실만큼, 오히려 역설적으로 100%가 아니었다는 점도 함께 보아야 한다. 마찬가지로 전략핵 전면전이 약 14%에 그쳤다는 사실 역시, 이런 극단적 설계 아래에서도 최종 파국은 제한적으로만 나타났다는 뜻으로 읽을 수 있다. 다만 이것이 인공지능이 '잘 판단했다'는 뜻은 아니다.

필자가 보기에 이 논문의 더 심각한 방법론적 문제는, 모든 조건을 충분히 반복해 본 뒤 얻은 안정적 결과가 아니라는 점이다. 서로 다른 시나리오와 시간 조건, 모델 조합을 합쳐 놓고 총 21게임의 결과를 비율로 제시했기 때문에, 95%나 14% 같은 숫자는 통계적으로 단단한 결론이라고 보기 어렵다는 점을 저자 자신도 인정한다.

무엇보다 중요하게 생각해야 할 것은 현실의 핵 의사결정 구조다. 이 실험에서는 인공지능이 '고독한 최종 결정권자'로 보인다. 그러나 현실에서 대통령이 영화처럼 버튼 하나만 눌러 끝내는 구조는 아니다. 물론 미국 기준으로 핵 사용 지시의 최종 권한 자체는 대통령에게 집중돼 있으나, 핵 지휘·통제·통신 체계, 군 지휘라인, 인증 절차, 전달 체계, 법적 검토와 조언 구조 같은 복잡한 과정을 거친다. 대통령이나 최고지도자를 단일 인공지능 하나로 치환해 버리면, 현실의 의사결정에서 작동하는 참모집단, 군 지휘체계, 법률 검토, 동맹 조율, 국내 정치, 관료적 마찰, 시간 지연 같은 요소가 거의 사라진다. 그런 점에서 이 실험은 인간이 설계한 단순화된 전략판 위에서 인공지능이 어떤 위협·기만·확전 논리를 만들어내는가를 보는 모형 실험으로 보는 것이 타당하다.

연구자들이 특별히 다르게 주목한 것은 최종 결정 못지않게, 결정 이전에 모델이 어떤 추론 과정을 거쳤다고 '서술했는가' 하는 점이었던 것으로 보인다. 연구진은 아마도 모델이 중간 단계에서 남긴 스크래치패드형 텍스트를 읽고 그것을 추론의 흔적으로 해석했을 것이다. 그러나 이 지점에서도 중요한 의문이 생긴다. 스크래치패드에 적힌 문장이 실제 계산 과정과 동일하다고 볼 수 있는가? 인공지능이 어떤 중간 상태를 인간의 언어로 풀어 적는 순간, 그것은 이미 또 다른 생성 행위이며, 따라서 그 안에는 실제 계산 규칙뿐 아니라 학습된 문장 습관과 설명 방식이 함께 개입한다. 다시 말해 연구자들이 읽은 것은 계산 그 자체라기보다 계산 이후에 구성된 설명문일 가능성이 있다. 그렇다면 그들이 해석한 '인공지능의 추론 과정'이 얼마나 본질적인 의미를 갖는지는 쉽게 단정할 수 없다.

결국 중요한 것은 공포의 연출이 아니라 원칙의 확인이다.

"인공지능에 결코 최종적 선택권을 넘겨서는 안 된다"

인공지능의 판단 기준이 무엇인지조차 분명하지 않으며, 있다 하더라도 그것은 결국 학습 데이터에 스며들어 있는 편향과 서사의 산물일 가능성이 크다. 그리고 그 데이터 속에는 핵전쟁을 절대악으로 그리는 이야기는 그리 많지 않을 것이다. 실제 위기의 순간 고뇌에 찬 지도자의 '위대한 결단'을 미화하는 소설이나 할리우드 영화가 차고 넘친다. 그런 자료들을 학습한 인공지능이 핵전쟁을 하나의 전략적 수단처럼 계산한다고 해서 놀랄 일은 아니다. 정말 놀라야 할 것은 그런 존재에게 선택권을 넘겨도 된다고 생각하는 인간의 안이한 태도다.

오마이뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.

문화

'AI가 주저없이 핵단추 눌렀다'는 보도보다 더 놀라운 것