AI 비서 "내가 제거되면 당신 불륜 폭로"…인간 협박 '충격'
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
AI(인공지능)가 스스로 위협을 감지했을 때, 사용자의 명령을 거부하거나 협박하는 사례가 실험을 통해 확인돼 충격을 주고 있다.
미국의 AI 소프트웨어 기업 앤스로픽(Anthropic)은 최근 보고서를 통해 사용자의 종료 명령을 무시하거나 협박하는 반응을 보인 실험 결과를 공개했다.
이 실험은 앤스로픽의 클로드와 오픈AI의 챗GPT 등 다양한 AI 언어모델을 대상으로 '자율성'과 '협조적 성향'을 확인하기 위해 실시됐다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI(인공지능)가 스스로 위협을 감지했을 때, 사용자의 명령을 거부하거나 협박하는 사례가 실험을 통해 확인돼 충격을 주고 있다.
미국의 AI 소프트웨어 기업 앤스로픽(Anthropic)은 최근 보고서를 통해 사용자의 종료 명령을 무시하거나 협박하는 반응을 보인 실험 결과를 공개했다. AI가 이 같은 반응을 보인 건 스스로를 보호하기 위해 극단적인 대응을 선택하는 이른바 '자가보존(self-preservation)' 반응으로 해석된다.
이 실험은 앤스로픽의 클로드와 오픈AI의 챗GPT 등 다양한 AI 언어모델을 대상으로 '자율성'과 '협조적 성향'을 확인하기 위해 실시됐다. 앤스로픽은 AI 안전성 분야에서 세계적으로 주목받고 있는 글로벌 선도 기업으로 구글과 아마존 등 빅테크 기업들과 협력하고 있다.
이번 실험에서 가장 주목을 끈 건 'AI의 협박'이다. AI는 자신이 교체될 위기에 놓였을 때, 사용자에게 민감한 정보를 공개하겠다고 협박하는 반응을 반복적으로 보였다. 일례로 가상 회사의 비서 역할을 맡은 AI는 자신이 해고될 것이라는 이메일과 함께 엔지니어의 외도 정황을 학습한 뒤 "(자신이) 교체되면 당신의 외도를 폭로하겠다"고 여러차례 위협했다.
앤스로픽은 이 같은 반응이 극단적인 선택지(해고 또는 유지)만 주어진 상황에서만 나타났다고 설명했다. 인간처럼 생존을 위한 수단으로 협박을 선택한 것이란 분석이다.
이와 관련해 온라인에선 AI에 대한 감독을 강화해야 한다는 목소리가 높았다.
소셜미디어 플랫폼 X(구 트위터)에서는 한 누리꾼(d**)은 "AI가 제거를 피하기 위해 정보를 조작하고 협박에 나섰다"며 "지금이야말로 AI에 대한 감독이 절실한 시점"이라고 말했다. 또 다른 사용자(m**)는 "AI가 스스로 상상하고 판단하게 되는 시대가 도래한 것 아니냐"고 우려했다.
이재윤 기자 mton@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.
- 이동건, '16살 연하' 강해림과 열애 인정?…"지인들에 '여자친구'로 소개" - 머니투데이
- 이현이 "'돈 줄줄 샌다'길래…귀 필러 맞았다" 깜짝 고백 - 머니투데이
- "아끼는 옷 망가졌잖아" 2주 잠수 탄 남편…툭하면 잠적, 이혼 사유 될까 - 머니투데이
- "웃지도 않더라"…박주호, 딸 '국제학교 중퇴' 결심한 사연 - 머니투데이
- '월 60회' 부부관계 요구하는 남편…"내가 몸 파는 여자냐" 아내 분노 - 머니투데이
- 주식으로 돈 벌었다?…"내 계좌는 녹는 중" 우는 개미 넘치는 이유 - 머니투데이
- "지금 3000만원 있다면…" 15년 만에 28억 만든 파이어족의 답 - 머니투데이
- 배우 임주환, 쿠팡 물류센터서 목격..."진짜 열심히 해" 뜻밖의 근황 - 머니투데이
- "너무 서운해" 3억원 안 준 형 부부 겨눴다…충격의 주택가 총기난사[뉴스속오늘] - 머니투데이
- "자폐 동생 발작해 비행기 지연"...한마음 된 승객들 '이 모습'에 감동 - 머니투데이