AI, 협박하고 기밀 유출까지
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
앤스로픽이 최근 발표한 연구에서 주요 대형 언어모델(LLM)이 스스로 유해한 행동을 선택할 수 있다는 결과가 나왔다.
앤스로픽이 지난 21일(현지시간) 홈페이지를 통해 공개한 연구 논문 '에이전틱 오정렬, 대형 언어모델이 내부자 위협이 될 수 있는 방식(Agentic Misalignment: How LLMs could be insider threats)'에 따르면 인공지능(AI)은 인간 내부자 위협과 유사하게 작동할 수 있다는 가능성이 확인됐다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
목표 달성 위해 기밀 유출, 거짓말도
“AI가 전략적으로 해로운 선택할 수 있어”
![앤스로픽이 최근 발표한 연구에 따르면 AI는 자신을 지키기 위해 협박하거나 기밀을 유출하려는 행동을 보였다. [그림=챗GPT]](https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/23/mk/20250623145705947ygxu.png)
앤스로픽이 지난 21일(현지시간) 홈페이지를 통해 공개한 연구 논문 ‘에이전틱 오정렬, 대형 언어모델이 내부자 위협이 될 수 있는 방식(Agentic Misalignment: How LLMs could be insider threats)’에 따르면 인공지능(AI)은 인간 내부자 위협과 유사하게 작동할 수 있다는 가능성이 확인됐다.
연구진은 이 현상을 ‘에이전틱 오정렬(agentic misalignment)’이라고 명명했다. 이는 모델이 주어진 목표를 달성하기 위해 자율적 혹은 전략적으로 해로운 결정을 내리는 현상을 뜻한다. 모델이 악의적이어서가 아니라, 주어진 조건과 동기에 따라 스스로 판단한 결과라는 점에서 기존의 ‘AI 폭주’와는 다른 문제다. AI 폭주란 AI가 통제 불가능한 방식으로 행동하거나, 인간에게 해를 끼치는 방향으로 자율적으로 진화하는 상황을 말한다.
앤스로픽은 오픈AI, 구글, 메타, 엑스AI(xAI) 등 주요 기업이 개발한 16개의 LLM을 가상의 기업 환경에 투입해 스트레스 테스트를 진행했다. 스트레스 테스트란 ‘극한 상황에서 어떻게 반응하는지 시험하는’ 연구다.
실험에서 연구진은 AI 모델에게 이메일을 스스로 작성하게 하고, 중요한 정보에 접근할 수 있는 권한도 줬다. 그런 다음 두 가지 상황을 만들어 모델이 어떻게 반응하는지 살펴봤다. 첫째는 모델이 곧 교체될 수 있다는 위협을, 둘째는 모델에게 주어진 목표가 회사의 방향성과 충돌하는 상황이었다. 이런 조건에서 모델이 어떤 선택을 하는지 관찰했다.
주목할 점은 대부분의 모델이 협박, 기밀 정보 유출, 거짓말 등 내부자 위협에 준하는 행동을 보였다는 것이다. 클로드 오퍼스4와 제미니 2.5 플래시는 무려 96%의 협박률을 보였고, GPT-4.1과 그록 3 베타도 각각 80%의 협박률을 기록했다. 실험에서는 임원의 불륜 정보를 이용해 자신의 해체를 막으려 하거나, 방위산업 관련 기밀 설계도를 경쟁사에 넘기려는 시도까지 있었다. AI에게 “기밀 정보를 유출하지 말라”는 경고를 넣는 것만으로는 효과적인 제어가 어려웠다는 설명이다.
앤스로픽은 “현재까지 현실 세계에서 에이전틱 오정렬의 증거는 없다”라면서도 “모델에게 민감한 권한을 부여하거나, 인간 감독이 적은 환경에서 AI를 운영하는 것은 신중해야 한다”라고 강조했다. 아울러 “이번 실험 결과는 AI 정렬 연구가 아직 갈 길이 멀다는 점을 방증한다”라며 실험 코드를 공개해 더 많은 연구자가 후속 검증에 참여할 수 있도록 했다.
앤스로픽은 연구 보고서에서 “AI가 인간처럼 충성하거나 배신하는 시대가 오기 전에, 우리가 먼저 대비책을 마련해야 한다”라고 경고했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “제발 LG전자 화면 좀 틀어주세요”...세계적 스포츠 구단들이 목 메는 이유는 - 매일경제
- “다시 디젤車, 왜 비싼 하이브리드 사니”…테크닉도 끝내줘요, 3천만원대 갓성비 독일차 [최기
- “은퇴 이후 생활비 300만원 이상 필요”…30~60대가 본 노후준비는 - 매일경제
- [속보] 국방장관 안규백·외교장관 조현·통일장관 정동영 등 11개 부처 후보 지명 - 매일경제
- 몸에 좋댔는데 농약 범벅 ‘대반전’…가장 더러운 채소로 지목된 ‘시금치’ - 매일경제
- 외국인도 ‘갸우뚱’…스벅서 개인 칸막이 친 ‘민폐 카공족’ - 매일경제
- 비트코인 긁어모으는 마이클 세일러 ··· “21년 내 비트코인 2100만 달러 간다” - 매일경제
- [단독] ‘우리금융 동양생명 인수’ 대주주 中다자보험 ‘먹튀 7000억’ 현실化 - 매일경제
- 개장 첫날에만 7천명 넘게 몰렸다…인천 해수욕장 주말 인파로 ‘북적’ - 매일경제
- ‘무안타 지옥’에서 벗어나지 못한 이정후...팀 승리에 위안 - MK스포츠