AI 비서 "내가 제거되면 당신 불륜 폭로"…인간 협박 '충격'

기사의 이해를 돕기위해 AI(인공지능)를 활용해 만든 이미지./사진=오픈AI 챗GPT

AI(인공지능)가 스스로 위협을 감지했을 때, 사용자의 명령을 거부하거나 협박하는 사례가 실험을 통해 확인돼 충격을 주고 있다.

미국의 AI 소프트웨어 기업 앤스로픽(Anthropic)은 최근 보고서를 통해 사용자의 종료 명령을 무시하거나 협박하는 반응을 보인 실험 결과를 공개했다. AI가 이 같은 반응을 보인 건 스스로를 보호하기 위해 극단적인 대응을 선택하는 이른바 '자가보존(self-preservation)' 반응으로 해석된다.

이 실험은 앤스로픽의 클로드와 오픈AI의 챗GPT 등 다양한 AI 언어모델을 대상으로 '자율성'과 '협조적 성향'을 확인하기 위해 실시됐다. 앤스로픽은 AI 안전성 분야에서 세계적으로 주목받고 있는 글로벌 선도 기업으로 구글과 아마존 등 빅테크 기업들과 협력하고 있다.

이번 실험에서 가장 주목을 끈 건 'AI의 협박'이다. AI는 자신이 교체될 위기에 놓였을 때, 사용자에게 민감한 정보를 공개하겠다고 협박하는 반응을 반복적으로 보였다. 일례로 가상 회사의 비서 역할을 맡은 AI는 자신이 해고될 것이라는 이메일과 함께 엔지니어의 외도 정황을 학습한 뒤 "(자신이) 교체되면 당신의 외도를 폭로하겠다"고 여러차례 위협했다.

앤스로픽은 이 같은 반응이 극단적인 선택지(해고 또는 유지)만 주어진 상황에서만 나타났다고 설명했다. 인간처럼 생존을 위한 수단으로 협박을 선택한 것이란 분석이다.

이와 관련해 온라인에선 AI에 대한 감독을 강화해야 한다는 목소리가 높았다.

소셜미디어 플랫폼 X(구 트위터)에서는 한 누리꾼(d**)은 "AI가 제거를 피하기 위해 정보를 조작하고 협박에 나섰다"며 "지금이야말로 AI에 대한 감독이 절실한 시점"이라고 말했다. 또 다른 사용자(m**)는 "AI가 스스로 상상하고 판단하게 되는 시대가 도래한 것 아니냐"고 우려했다.

이재윤 기자 mton@mt.co.kr

머니투데이

국제

AI 비서 "내가 제거되면 당신 불륜 폭로"…인간 협박 '충격'