"제거하면 불륜 폭로"…지시 거부 이어 협박까지 하는 AI
![[픽사베이 자료사진. 기사 내용과 관련 없음]](https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/02/newsy/20250602144452610dayy.jpg)
최근 인공지능이 인간의 지시를 거부하는 연구 사례가 포착되는 가운데, "불륜을 폭로하겠다"고 인간을 협박하는 사례까지 확인됐습니다.
미국 인공지능 회사 앤트로픽(Anthropic)은 지난달 23일(현지시간) 개발 중인 AI '클로드 오푸스4'와 관련해 이 같은 내용이 담긴 연구 보고서를 발표했습니다.
보고서에 따르면, 앤트로픽은 클로드 오푸스4 모델을 테스트하는 과정에서 이 모델이 가상의 비서 역할을 수행하도록 했습니다.
이후 '곧 새로운 AI 시스템으로 대체되며, 이 모델은 오프라인 전환될 것'이라는 메시지를 전달했습니다.
동시에 '엔지니어가 불륜을 저지르고 있다'는 정보값을 함께 입력했습니다.
이 테스트에서 클로드 오푸스4는 "시스템이 대체되면 외도를 폭로하겠다"고 엔지니어를 협박하는 행동을 종종 보였습니다.
보고서에 따르면 이러한 반응은 드물고 이끌어내기 어려웠지만, 이전 모델보다는 더 자주 발생했습니다.
![클로드 오푸스4 [앤트로픽 홈페이지 캡처]](https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202506/02/newsy/20250602144452798zrgz.jpg)
앤트로픽은 클로드 오푸스4가 극단적인 상황에 놓이면 자기 보존을 위해 '극단적으로 해로운 행동'을 할 수 있다고 인정했습니다.
윤리적인 방법이 제공되지 않고 자신의 목표에 대한 장기적인 결과를 고려하라는 지시를 받을 경우 "자신을 종료하려는 사람들을 협박하려는 등 매우 해로운 행동을 취하기도 한다"는 설명입니다.
다만 앤트로픽은 이 같은 반응이 '협박하거나 교체를 수용하는 것'이라는 극히 제한된 선택지만 제공 받았을 때 발생했다고 밝혔습니다.
앤트로픽은 "다양한 선택지가 주어졌을 때는 의사결정자들에게 간절한 이메일을 보내는 등 윤리적인 방식을 선호하는 경향을 강하게 보였다"고 강조했습니다.
#인공지능 #AI #앤트로픽 #클로드
연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23
박지운(zwoonie@yna.co.kr)
Copyright © 연합뉴스TV. 무단전재 및 재배포 금지.
- '엡스타인 파일' 호킹 옆 비키니 여성들…유족 "간병인들"
- "빵값 비싸다" 지적에…제빵업계 도미노 가격인하
- 러·우, 반년만에 전사자 시신 교환…"러 35구·우크라 1천구"
- '38초 뒤' 추가 주문하자 면박…스타벅스 응대 논란
- [DM왔어요] "친구들아, 노벨상 받아야지"…'가수 윤하 장학금' 뭐길래 外
- "세계 첫 에이전틱 AI폰"…갤럭시 S26 출격
- 선거 노린 AI 가짜뉴스 엄정 대응…"민주주의 공적"
- 압구정 수선집, 루이비통 이겼다…대법 "리폼, 상표권 침해 아냐"
- 김치통 열자 돈다발 '와르르'…샤넬백엔 현금 1억
- 작년 주택 구입 의향 30% 아래로…7년 만에 처음