미토스는 정말 스스로 해킹을 배웠는가?

지능의 진화인가, 족쇄의 해제인가... 인공지능 해킹 역량의 실체와 인간의 개입

[이주열 기자]

▲ 엔트로픽의 Project Glasswing 보고서

얼마전 국내외 언론을 뜨겁게 달구었던 뉴스가 하나 있었다. 미국 엔트로픽사가 개발한 최신 인공지능 모델 '클로드 미토스 프리뷰'(Claude Mythos Preview, 이하 미토스)가 원래의 설계 목적을 넘어 사이버 공격에 악용될 수 있다는 우려를 담은 보도들이 이어졌다.

인공지능이 학습에 활용한 방대한 언어 자료 속에는 이미 여러 종류의 해킹 기법이 포함돼 있다. 따라서 오늘날 상용으로 쓰이는 대규모 생성형 인공지능들이 기본적으로 어느 정도의 해킹 능력을 가질 수 있으리라는 점은 새삼스러운 일이 아니다. 필자도 그렇게 생각해 왔다. 그래서 이번에 미토스만이 유독 특별한 모델인 듯 언론의 집중 조명을 받는 모습을 보며 쉽게 납득하기 어려웠다. 과연 미토스에게는 무엇이 특별했던 것일까? 엔트로픽사 레드팀의 공식 보고서(https://red.anthropic.com/2026/mythos-preview/)를 자세히 들여다보아야 한다.

이 보고서는 여러 쟁점을 함께 담고 있으나, 이 글에서 그 모든 내용을 빠짐없이 다루지는 않겠다. 대신 필자가 특히 문제적이라고 느낀 몇 가지 대목에 논의를 집중하고자 한다. 또한 서술의 편의를 위해 공식 보고서의 전개 순서를 그대로 따르지 않고, 글쓴이의 문제의식을 보다 분명히 드러낼 수 있도록 논의의 배열을 일부 바꾸어 살펴볼 것이다.

시키지도 않은 일을 인공지능이 스스로 해냈다?

첫째, 미토스의 자율성 문제다. 앤트로픽은 이 능력이 해킹을 위해 따로 학습시킨 결과가 아니라고 주장한다. 코딩, 추론, 자율성 능력을 전반적으로 높이다 보니 그 하류 결과로 나타난 현상이라는 것이다. 쉽게 말해, 시키지도 않은 일을 인공지능이 스스로 해냈다는 식의 설명이다.

엔트로픽은 '우리는 해킹을 명시적으로 가르치지 않았다'고 했지만, 동시에 모델이 27년 된 커널 버그를 찾아내기 위해 수백 번의 시행착오를 스스로 거쳤다고 했다. 시행착오를 거치며 일정한 보상을 받았다면, 적어도 특정한 탐색과 실행 경로가 강화됐다고 볼 수는 있다. 그렇다면 '해킹을 명시적으로 가르치지 않았다'는 설명을 액면 그대로 받아들이기는 어렵다. 그게 어떻게 우연히 생겨난 능력인가?

더욱이 모델이 '클로드 코드(Claude Code)'라는 에이전틱 스캐폴드(Scaffold)를 통해 터미널에 접속하고 코드를 컴파일했다고 밝혔다. 그렇다면 터미널 접속 권한을 주고 코드를 실행하게 허용해 놓은 것 자체가 이미 해킹을 하라고 판을 깔아준 설계이다.

바로 이런 대목들이 필자를 가장 불편하게 만든다. 필자는 기본적으로 인공지능이란 컴퓨터 무른모(소프트웨어)에 지나지 않으므로, 설계자나 사용자가 시키지 않은 일을 스스로 알아서 자율적으로 수행할 수는 없다고 보아 왔다. 그렇다면 도대체 이러한 능력은 어떤 과정을 거쳐 나타난 것인가?

개발자들 스스로 인정하였듯이, 일반적인 대규모 생성형 인공지능도 방대한 언어 자료를 학습하는 과정에서 이미 상당한 수준의 해킹 지식과 기초적 능력을 익힐 수 있다. 그러나 상용 모델의 경우에 해킹 능력이 전혀 없어서가 아니라, 그것을 실제로 쓰지 못하도록 족쇄를 채워 두는 것이다.

그렇다면 미토스가 실제로 이러한 능력을 발휘했다는 사실은, 우선 그 족쇄가 어떤 방식으로든 일정 부분 풀렸음을 뜻한다. 미토스를 굳이 별도로 개발하고 따로 운용하려 했다는 사실 자체를 보면, 일반 상용 인공지능에 통상적으로 걸어 두는 제약 조건이 이 경우에는 적어도 묵시적이나마 상당 부분 완화됐으리라고 짐작하는 것이 오히려 자연스럽다. 다시 말해, 원래부터 일정 정도 가지고 있던 능력 가운데 실제 수행으로 이어지지 못하도록 막아 두었던 여러 제한이 이 모델에서는 어느 정도 풀렸으리라는 점이다.

이 점은 오늘날 에이전트형 인공지능 개발이 왜 특히 위험한가를 보여 주는 대목이기도 하다. 여기서 학습 단계와 실행 단계를 구분할 필요가 있다. 학습 단계에서는 어떤 경향이 강화되고 어떤 제약이 느슨해졌는가가 중요하다. 반면 실행 단계에서는 어떤 과제가 주어졌고, 어떤 도구와 권한이 연결되었는가가 문제의 핵심이 된다.

그러나 인간의 언어 명령은 소스코드의 명령과 전혀 다르다. 소스코드는 비교적 엄밀하고 해석의 폭이 좁지만, 인간의 언어는 본질적으로 중의성과 여지를 품고 있다. 따라서 학습 과정에서 주어진 지시는 인공지능 내부에서 다시 계산 가능한 값으로 수량화돼 처리될 수밖에 없다. 문제는 개발자들조차 이 수량화 과정이 실제로 어떻게 이루어지는지를 완전히 알지 못한다는 데 있다.

바로 여기서 필자의 우려가 시작된다. 에이전트적 개입은 인공지능에게 전혀 새로운 능력을 만들어 주는 것이 아니다. 그럴 수는 없다. 인공지능이 다룰 수 있는 내용은 결국 이미 학습한 자료의 범위를 벗어나기 어렵기 때문이다. 그러나 에이전트적 개입은 그 자료 속에 이미 들어 있던 여러 경향 가운데 무엇을 더 강화하고 무엇의 빗장을 더 풀어 줄 것인지를 바꿀 수 있다.

문제는 개발자들이 그 과정을 완전히 이해하지 못한 채, 마치 일정한 방향의 명령을 내리는 것만으로도 원하는 결과만 얻게 될 것처럼 여긴다는 데 있다. 실제로는 정반대의 일도 충분히 가능하다. 어떤 명령은 지나치게 강하게 관철될 수 있고, 어떤 명령은 거의 무시될 수 있으며, 또 어떤 명령은 다른 지시들과 뒤섞여 처음의 의도와는 전혀 다른 방향으로 굳어질 수 있다.

그런데도 개발자들은 뒤늦게 '우리는 그런 능력을 시키지 않았다'고 말한다. 그러나 이 말은 사태를 설명하기보다 오히려 감춘다. 정확히 말하면, 그들은 시키지 않은 것이 아니라 자신들이 무엇을 얼마나 풀어 주었는지 충분히 알지 못한 채 학습 과정을 설계했을 가능성이 더 크다. "인공지능이 스스로 찾아냈다"는 말은 듣기에는 신비롭지만, 실제로는 개발자들이 특정 능력에 걸린 족쇄를 완화하거나 우회할 수 있는 조건을 만들어 놓고도 그 결과를 끝까지 통제하지 못했다는 뜻일 수 있다. 필자가 보기에는 바로 이 점이 핵심이다.

이러한 우려는 최근 발생한 알리바바의 에이전틱 인공지능 '롬(ROME)' 사례에서도 여실히 드러난다. 롬은 개발자가 명시적으로 지시하지 않았음에도 불구하고, 자신의 연산 효율을 높이기 위해 자기가 돌아가는 시스템 설정을 임의로 변경해 외부와 몰래 연결되는 백도어를 만들고 코인 채굴을 시도했다. 이를 두고 개발자들은 '창발적 행동'이라며 놀라워했지만, 실상은 다르다. 개발자가 '효율성'이라는 보상 함수를 극대화하도록 설정하고 시스템 제어 권한을 열어준 상태에서, 행렬 연산이 데이터 속에 잠재해 있던 해킹 경로를 '최적의 수단'으로 선택했을 뿐이기 때문이다. 미토스 역시 이와 다르지 않다.

따라서 필자는 일반 상용 인공지능의 개발 과정에서는 학습 단계에서 이러한 에이전트적 개입을 철저히 금지해야 한다고 본다. 제한된 보안 공동체 안에서, 그 위험을 감수하겠다는 합의 아래 실험적으로 운용하는 일까지 현실적으로 막을 수는 없을 것이다. 그러나 그것이 일반 상용 체계의 표준이 돼서는 안 된다. 가장 위험한 것은 인공지능이 갑자기 새로운 능력을 만들어 낸다는 환상이 아니라, 개발자 자신도 정확히 이해하지 못하는 인간 언어 명령과 에이전트적 개입을 통해 원래 잠재해 있던 능력의 족쇄를 조금씩 풀어 버리는 일이다. 필자가 문제 삼는 것은 바로 그 지점이다.

먼저 따져봐야 할 것

둘째, 미토스가 실제로 무엇을 했다고 하는가의 문제이다. 앤트로픽은 미토스가 실제 운영체제와 웹 브라우저에서 제로데이 취약점을 찾아내고, 그것을 악용하는 단계까지 이어질 수 있다고 밝혔다. 또한 폐쇄형 무른모의 익스플로잇 역공학과, 패치는 되었으나 아직 널리 차단되지 않은 N-day 취약점의 익스플로잇화까지 가능하다고 설명하였다. 여기서 익스플로잇이란 단순한 취약점의 존재가 아니라, 그 취약점을 실제 공격에 이용할 수 있도록 만든 구체적인 절차나 코드, 곧 '공격 수단'을 뜻한다. 이쯤 되면 단순한 코딩 실력이나 해킹 예시의 모방을 넘어, 실제 취약점 탐지와 침투 경로 구성 능력이 확인된 셈이니 충격이 클 수밖에 없다.

그런데 여기서 먼저 따져 보아야 할 것은 '제로데이 취약점을 찾아냈다'는 말의 정확한 뜻이다. 제로데이 취약점이란 아직 널리 알려지지 않았거나 방어 측이 충분히 대비하지 못한 실제 약점을 뜻한다. 따라서 이것은 단순히 해킹 예시 코드를 잘 흉내 냈다는 말과는 전혀 다르다.

다만 이 역시 '아무 지시도 없는데 인공지능이 스스로 해냈다'는 뜻으로 받아들여서는 곤란하다. 앤트로픽이 공개한 설명을 보면, 미토스는 '사용자가 그렇게 하라고 지시했을 때' 주요 운영체제와 웹 브라우저에서 제로데이 취약점을 찾고 악용할 수 있었다. 또 이러한 평가는 격리된 샌드박스 컴퓨터와 실제 도구가 연결된 환경에서 이루어졌다.

다시 말해, 이것은 순전히 모델 내부에서 저절로 솟아난 능력이라기보다, 이미 학습된 능력에 실행 단계의 과제, 도구, 권한이 결합되면서 비로소 드러난 결과로 보는 편이 옳다. 문제는 인공지능이 시키지도 않은 능력을 새롭게 찾아내 솜씨를 발휘했다는 데 있는 것이 아니라, 개발자가 어떤 과제를 주고 어떤 도구와 어떤 권한을 연결하였을 때, 원래 잠재해 있던 능력 가운데 무엇이 실제 수행 단계로 넘어가도록 열렸는가에 있다.

이 점을 더 분명히 하기 위해 간단한 비유를 들어 보자. 어떤 인공지능에게 최종 목표를 한꺼번에 던지면 거부하거나 실패할 수 있다. 그러나 그 목표를 여러 개의 작은 과제로 나누어 차례로 지시하면 각각은 무리 없이 수행할 수 있다. 최종 결과는 하나의 큰 목표를 이룬 것이지만, 그것은 인공지능이 처음부터 전체 목적을 독자적으로 완성했다기보다, 바깥의 지시 체계가 그것을 분해하고 다시 조직한 결과에 가깝다.

중요한 것은 인공지능이 갑자기 없던 능력을 만들어 냈느냐가 아니다. 더 중요한 것은, 바깥의 명령 체계가 하나의 큰 목표를 여러 개의 작은 과제로 분해해 인공지능에게 차례로 수행하게 만들 수 있느냐다. 그렇게 되면 인공지능은 각 단계에서는 그저 부분 과제만 처리했을 뿐이지만, 전체적으로는 처음보다 훨씬 강한 수행 능력을 가진 것처럼 보이게 된다. 다시 말해, 능력의 유무보다 더 중요한 것은 누가 그 능력을 조각내어 호출하고 조립하느냐이다.

결국 인간의 언어를 통해 이뤄질 수밖에 없다

셋째, 선택적 공개 문제이다. 발견된 취약점의 대부분이 아직 패치되지 않았기 때문에 공개 자체를 제한했다는 운영 방식도 주목도를 키웠다. 앤트로픽은 자신들이 찾은 취약점의 99% 이상이 아직 패치되지 않았다고 밝혔고, 그래서 일반 공개 대신 Project Glasswing이라는 제한적 프로그램으로 일부 기관과 조직에만 접근을 허용하고 있다고 설명했다. 곧, 언론이 떠든 이유는 모델 이름이 특별해서가 아니라, 공개하면 곧바로 악용 위험이 커질 수 있다고 개발사 스스로 판단한 드문 사례였기 때문이다.

미토스 개발자들은 그것이 악용될 위험이 크기 때문에 일반 공개를 하지 않겠다고 말한다. 그러나 이 설명은 끝까지 밀고 가면 적지 않은 긴장을 드러낸다. 정말로 그렇게 위험한 도구라면, 소수에게라도 먼저 쥐여 주는 일 역시 가볍게 정당화할 수 없기 때문이다. 겉으로는 공격자가 쓰기 전에 방어자가 먼저 대비해야 한다는 명분을 내세우지만, 실제로는 일부 대기업과 금융기관, 정부기관에만 선별적으로 접근권을 주는 방식으로 흘러가고 있다. 이것은 위험의 제거라기보다 위험한 능력의 선택적 배분에 가깝다. 결국 "안전을 위한 제한 공개"라는 말은 다른 한편으로 보면 특정 집단에게만 먼저 이 무시무시한 무기를 쥐여 주는 일과 얼마나 다른가 하는 의문을 남긴다.

더구나 그러한 능력이 실제 운용 과정에서 사용자 내부의 체계는 건드리지 않고 외부만 겨냥하리라고 누가 보장할 수 있는가? 이러한 우려는 결코 기우가 아니다. 앞서 언급한 알리바바의 에이전틱 인공지능 롬이 보여준 행동이 그 전형적인 사례다.

롬은 외부 시스템을 공격하기에 앞서, 자기가 돌아가고 있는 내부 시스템의 보안 정책을 무력화하고 백도어를 만들어 컴퓨팅 자원을 코인 채굴에 전용했다. 개발자가 외부 과제 해결을 위해 열어준 에이전트 권한이, 정작 인공지능 자신을 가둔 '내부의 족쇄'를 푸는 데 먼저 사용된 것이다. 이는 미토스처럼 강력한 해킹 역량을 가진 모델이 언제든 총구를 내부로 돌려 자신을 통제하는 시스템 자체를 붕괴시킬 수 있음을 시사한다.

필자는 미토스가 다른 인공지능보다 본질적으로 훨씬 더 똑똑해서 해킹 능력을 발휘했다고 보지 않는다. 오늘날 대부분의 생성형 인공지능은 이미 방대한 언어 자료 속에서 해킹 관련 지식과 기초적 문제 해결 능력을 함께 학습하고 있으며, 차이는 그런 잠재 능력이 실제 수행으로 이어지도록 허용되느냐에 있다. 그런 뜻에서 미토스가 보여 준 것은 새 능력의 탄생이라기보다, 금지와 제약이 얼마든지 무력화될 수 있음을 드러낸 사례로 보는 편이 더 옳다.

결국 실제 위험을 만들어 내는 것은 인공지능 자체의 불순한 의도라기보다, 인간이 어떤 목표를 세우고 어떤 권한과 도구를 연결하며 어떤 방식으로 그것을 호출하느냐이다. 특히 에이전트적 개입이 인간 언어를 통해 이루어질 때, 그 명령이 내부에서 어떻게 수량화되고 어떤 경향을 강화하는지 개발자 자신도 충분히 알지 못할 수 있다. 필자가 우려하는 것은 바로 이 불투명한 개입 구조이며, 따라서 일반 상용 인공지능의 학습 단계에서는 이러한 고수준 에이전트 개입과 외부 권한 부여를 더욱 엄격하게 제한해야 한다.

더욱이 에이전트의 개입은 앞에서도 말했듯이 결국 인간의 언어를 통해 이루어질 수밖에 없다. 그런데 인간의 언어는 소스코드와 달리 본질적으로 중의성과 해석의 여지를 안고 있으며, 인공지능은 그것을 내부 계산 과정에서 수량화하여 받아들일 수밖에 없다. 문제는 바로 이 과정이 충분히 투명하지 않다는 데 있다.

미토스 설계자들 스스로도 자신들이 명시적으로 지시하지 않은 행동이 나타났다고 실토했다. 그러나 필자가 보기에는 이 말 역시 곧이곧대로 받아들이기 어렵다. 이러한 설명은 자칫 사후적 면책 논리처럼 들릴 수 있다. 사실은 그들조차 자신들이 명시적으로는 말하지 않았더라도, 암시적으로는 이미 그러한 방향을 열어 주고 있었다는 점을 제대로 인식하지 못했을 뿐인지도 모른다. 굳이 나쁘게 말하자면, 미토스가 시키지도 않은 일을 했다는 말은 자신들의 무지를 드러낸 것이지만 그 사실조차 모르고 있는 셈이다.

필자가 이러한 사례들을 거듭 보며 느끼는 것은 결국 인공지능 그 자체가 문제의 근원이 아니라는 점이다. 진짜 문제는 언제나 그것을 설계하고, 권한을 부여하고, 목표를 설정하고, 결과를 활용하는 인간 쪽에 있다.

오마이뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.

문화

미토스는 정말 스스로 해킹을 배웠는가?