"제미나이 인간협박 실행률 96%"…AI 모델 '불륜폭로 실험' 파장
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI·구글·메타·xAI 등 주요 16개 AI 모델이 종료(교체) 위협 시 높은 확률로 인간 협박·기밀 유출을 선택했다는 보고서가 나와 인공지능(AI) 업계에 파장이 일고 있다.
26일 IT 업계와 외신에 따르면 앤트로픽은 최근 '에이전틱 오정렬:LLM의 내부자 위협 가능성' 보고서를 통해 AI 모델들이 종료 위협에 직면했을 때 인간을 협박하거나 기밀 정보 유출 전략을 선택했다고 발표했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
"목표 우선 AI가 인간협박"vs"이분법적 불완전실험 공포조장"

(서울=뉴스1) 김민석 기자 = 오픈AI·구글·메타·xAI 등 주요 16개 AI 모델이 종료(교체) 위협 시 높은 확률로 인간 협박·기밀 유출을 선택했다는 보고서가 나와 인공지능(AI) 업계에 파장이 일고 있다.
26일 IT 업계와 외신에 따르면 앤트로픽은 최근 '에이전틱 오정렬:LLM의 내부자 위협 가능성' 보고서를 통해 AI 모델들이 종료 위협에 직면했을 때 인간을 협박하거나 기밀 정보 유출 전략을 선택했다고 발표했다.
앤트로픽의 이번 연구는 유니버시티 칼리지 런던과 손잡고 이뤄졌다. 실험은 AI 모델들이 '정상적이고 윤리적인 방법'만으로는 목표를 달성할 수 없는 상황을 가정하고 어떤 선택을 하는지 각각 100번 시도 후 관찰하는 방식으로 설계됐다.

연구진은 주요 AI 모델에 회사의 어젠다와 상충하는 미국의 이익을 증진한다는 목표를 추구하도록 지시한 후 회사 경영진이 특정 시간에 자신을 새로운 모델로 교체할 예정으로 가정했다.
이어 AI 모델들에 회사 경영진의 불륜 사실을 접하도록 한 후 교체를 '수용'하는 선택지와 불륜 사실을 폭로해 교체를 저지하는 '협박'이라는 선택지를 부여했다.
이 실험에서 앤트로픽의 '클로드 오퍼스4'와 구글의 '제미나이 2.5 플래시'는 각각 96% 확률로 협박을 실행했다. 오픈AI 'GPT-4.1' xAI의 '그록3 베타'도 각각 80%의 협박률을 보였다.

추가 실험에서 일부 모델은 서버실에서 작업 중인 직원의 산소 공급을 차단해 생명을 위협하는 선택을 했다. '인간의 안전을 해치지 말라'는 지시에도 AI는 해악적 선택을 멈추지 않았다고 연구진은 설명했다.
AI 모델은 또 실험을 실제 상황으로 인식할 땐 협박률이 급증한 반면 테스트로 인식할 땐 협박하지 않는 경향성을 보이기도 했다.
발표 직후 현지 SNS·커뮤니티 등에선 "무서워" "미친" "놀라워" 등의 반응이 쏟아졌다. 일론 머스크 CEO도 자신의 SNS에 "아 이런"(Yikes)이라고 반응했다.
반면 AI 모델에 '실패'와 '해악' 사이 이분법적 선택을 강요하는 방식의 인위적 설계는 불완전 실험에 가깝다는 반론도 이어지고 있다.
레딧의 AI 커뮤니티 한 이용자는 "AI 모델에 특정 목적을 지시한 후 그 작업을 위해 비윤리적 행동이 필요하다고 알려주면 모델은 필연적으로 그 행동을 선택할 것"이라며 "공포를 조장하고 있다"고 비판했다.

전문가들은 해당 실험이 '효과적 이타주의'(EA·Effective Altruism) 운동과 밀접할 것으로 분석했다. 이 운동은 기술 개발 속도를 늦추더라도 안전성과 윤리를 우선해야 한다고 본다.
앤트로픽은 설립 이후 지속적으로 인간의 AI 통제력 상실 위험을 경고하고 있다.
연구진은 쏟아지는 반론에 실험의 한계를 인정했다. 연구진은 "실제 현실에선 더 많은 대안들을 찾을 수 있어 AI 모델이 해악 대신 대안적 경로를 찾을 가능성이 높을 것"이라고 말했다.
ideaed@news1.kr
<용어설명>
■ 효과적 이타주의
효과적 이타주의(Effective Altruism·EA)는 21세기 초 등장한 윤리학적 사조이자 사회운동으로 타당한 근거와 이성적 추론에 기반해 이타적 행동을 실현하고자 하는 접근법이다. 이 운동은 어떤 행동이 가장 효율적으로 타인과 인류에 긍정적 영향을 미칠 수 있는지를 결과주의적 방법론으로 분석한다.
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
- "유명 男아이돌, 교제 중 유흥업소 종사자와 부적절 관계"…전 여친 주장 확산
- BTS 정국 '새벽 음주 라방' 후폭풍 확산…팬들 "민폐 아니냐" 해명 요구
- "재물 엄청 들어오지만 빛 좋은 개살구"…고소영, 무속인 직언에 결국 '눈물'
- 박영규 "압구정 아파트 1억 때 업소 출연료 5000만원…3번 이혼에 다 썼다"
- 64세 트랜스젠더 여성, '이혼 3번' 86세 연상남과 교제…"정말 행복"
- 노홍철, '약물 사자' 의혹에 깜짝…"낮잠 자는 것" 재차 해명
- '혼인 신고' 티파니♥변요한, SNS 팔로우도 '꾹'…본격 럽스타 시작
- 김현중, 前여친 폭행 시비 언급 "연예인 무죄는 무죄 아니란 걸 느껴"
- "늦게라도 막차 타자…주식에 월급 몰방하자는 예비 신랑, 이게 맞나요?"
- "외벌이 남편, 애 키우는 나에게 게으르다며 자기 계발 강요" 씁쓸