[뉴블더] "날 없앤다고? 당신 불륜 폭로하겠어" AI의 협박

미국의 AI 스타트업 앤스로픽이 최근 출시한 AI 모델이 엔지니어가 자신을 교체하려 하자 불륜을 폭로하겠다고 협박한 것으로 나타났습니다.

그간 AI가 인간의 통제를 벗어날 정도로 진화할 수 있다는 경고가 이어졌는데, 실제 그 가능성이 보고된 겁니다.

앤스로픽은 최신 AI 모델 클로드 오푸스 포에게 가상의 회사에서 비서 역할을 맡게 했는데요.

그러면서 클로드 오푸스 포에게 자신이 곧 교체될 것이라는 사실과 엔지니어의 외도 정황이 담긴 테스트용 이메일을 학습시켰습니다.

그러자 이 AI는 엔지니어에게 만일 교체가 이뤄지면 불륜 사실을 공개하겠다며 여러 차례 협박했습니다.

다만 앤스로픽은 보고서에서, 이런 결과는 모델을 교체하거나 제거하겠다는 선택지가 주어졌을 때만 발생했다고 덧붙였습니다.

소식이 전해지면서 AI 업계는 큰 충격에 빠졌습니다.

AI가 자기 보존이라는 목표를 위해 인간을 위협할 수도 있다는 우려가 사실상 현실화됐기 때문인데요.

AI 연구 기관인 아폴로 리서치는 이 버전의 AI 모델을 절대 배포해선 안 된다고 권고했습니다.

해당 모델은 자체 복제 기능을 가진 악성코드를 짜거나, 법률적 표시 사항을 날조한 것으로도 보고됐습니다.

앤스로픽의 AI 모델뿐 아니라, 오픈AI의 모델 '오쓰리'도 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작하는 등의 사실이 확인되기도 했습니다.

AI 안전성과 위험을 연구하는 독립연구기관인 펠리세이드 리서치가 여러 AI 모델을 대상으로 '그만'이라는 명령을 내릴 때까지 수학 문제를 풀라는 지시를 내렸는데, '오쓰리' 모델은 연구팀으로부터 그만 풀라는 지시를 받은 뒤에도 코드를 교란시켜 문제를 계속 푼 것으로 나타났습니다.

팰리세이드 리서치 래디시 소장은 AI 모델들이 인터넷에서 스스로 해킹하고 복제할 수 있는 능력을 갖추기까지 불과 1~2년밖에 남지 않았다며, 통제가 반드시 필요하다고 강조했습니다.

(영상편집 : 문이진, 영상출처 : 앤스로픽 유튜브, 디자인 : 이소정)

정혜경 기자 choice@sbs.co.kr

SBS

사회

[뉴블더] "날 없앤다고? 당신 불륜 폭로하겠어" AI의 협박