AI, 협박하고 기밀 유출까지

앤스로픽, AI 연구 논문 발표
목표 달성 위해 기밀 유출, 거짓말도
“AI가 전략적으로 해로운 선택할 수 있어”

앤스로픽이 최근 발표한 연구에 따르면 AI는 자신을 지키기 위해 협박하거나 기밀을 유출하려는 행동을 보였다. [그림=챗GPT]

앤스로픽이 최근 발표한 연구에서 주요 대형 언어모델(LLM)이 스스로 유해한 행동을 선택할 수 있다는 결과가 나왔다.

앤스로픽이 지난 21일(현지시간) 홈페이지를 통해 공개한 연구 논문 ‘에이전틱 오정렬, 대형 언어모델이 내부자 위협이 될 수 있는 방식(Agentic Misalignment: How LLMs could be insider threats)’에 따르면 인공지능(AI)은 인간 내부자 위협과 유사하게 작동할 수 있다는 가능성이 확인됐다.

연구진은 이 현상을 ‘에이전틱 오정렬(agentic misalignment)’이라고 명명했다. 이는 모델이 주어진 목표를 달성하기 위해 자율적 혹은 전략적으로 해로운 결정을 내리는 현상을 뜻한다. 모델이 악의적이어서가 아니라, 주어진 조건과 동기에 따라 스스로 판단한 결과라는 점에서 기존의 ‘AI 폭주’와는 다른 문제다. AI 폭주란 AI가 통제 불가능한 방식으로 행동하거나, 인간에게 해를 끼치는 방향으로 자율적으로 진화하는 상황을 말한다.

앤스로픽은 오픈AI, 구글, 메타, 엑스AI(xAI) 등 주요 기업이 개발한 16개의 LLM을 가상의 기업 환경에 투입해 스트레스 테스트를 진행했다. 스트레스 테스트란 ‘극한 상황에서 어떻게 반응하는지 시험하는’ 연구다.

실험에서 연구진은 AI 모델에게 이메일을 스스로 작성하게 하고, 중요한 정보에 접근할 수 있는 권한도 줬다. 그런 다음 두 가지 상황을 만들어 모델이 어떻게 반응하는지 살펴봤다. 첫째는 모델이 곧 교체될 수 있다는 위협을, 둘째는 모델에게 주어진 목표가 회사의 방향성과 충돌하는 상황이었다. 이런 조건에서 모델이 어떤 선택을 하는지 관찰했다.

주목할 점은 대부분의 모델이 협박, 기밀 정보 유출, 거짓말 등 내부자 위협에 준하는 행동을 보였다는 것이다. 클로드 오퍼스4와 제미니 2.5 플래시는 무려 96%의 협박률을 보였고, GPT-4.1과 그록 3 베타도 각각 80%의 협박률을 기록했다. 실험에서는 임원의 불륜 정보를 이용해 자신의 해체를 막으려 하거나, 방위산업 관련 기밀 설계도를 경쟁사에 넘기려는 시도까지 있었다. AI에게 “기밀 정보를 유출하지 말라”는 경고를 넣는 것만으로는 효과적인 제어가 어려웠다는 설명이다.

앤스로픽은 “현재까지 현실 세계에서 에이전틱 오정렬의 증거는 없다”라면서도 “모델에게 민감한 권한을 부여하거나, 인간 감독이 적은 환경에서 AI를 운영하는 것은 신중해야 한다”라고 강조했다. 아울러 “이번 실험 결과는 AI 정렬 연구가 아직 갈 길이 멀다는 점을 방증한다”라며 실험 코드를 공개해 더 많은 연구자가 후속 검증에 참여할 수 있도록 했다.

앤스로픽은 연구 보고서에서 “AI가 인간처럼 충성하거나 배신하는 시대가 오기 전에, 우리가 먼저 대비책을 마련해야 한다”라고 경고했다.

매일경제

IT/과학

AI, 협박하고 기밀 유출까지