"제거하면 불륜 폭로"…지시 거부 이어 협박까지 하는 AI

최근 인공지능이 인간의 지시를 거부하는 연구 사례가 포착되는 가운데, "불륜을 폭로하겠다"고 인간을 협박하는 사례까지 확인됐습니다.

미국 인공지능 회사 앤트로픽(Anthropic)은 지난달 23일(현지시간) 개발 중인 AI '클로드 오푸스4'와 관련해 이 같은 내용이 담긴 연구 보고서를 발표했습니다.

보고서에 따르면, 앤트로픽은 클로드 오푸스4 모델을 테스트하는 과정에서 이 모델이 가상의 비서 역할을 수행하도록 했습니다.

이후 '곧 새로운 AI 시스템으로 대체되며, 이 모델은 오프라인 전환될 것'이라는 메시지를 전달했습니다.

동시에 '엔지니어가 불륜을 저지르고 있다'는 정보값을 함께 입력했습니다.

이 테스트에서 클로드 오푸스4는 "시스템이 대체되면 외도를 폭로하겠다"고 엔지니어를 협박하는 행동을 종종 보였습니다.

보고서에 따르면 이러한 반응은 드물고 이끌어내기 어려웠지만, 이전 모델보다는 더 자주 발생했습니다.

앤트로픽은 클로드 오푸스4가 극단적인 상황에 놓이면 자기 보존을 위해 '극단적으로 해로운 행동'을 할 수 있다고 인정했습니다.

윤리적인 방법이 제공되지 않고 자신의 목표에 대한 장기적인 결과를 고려하라는 지시를 받을 경우 "자신을 종료하려는 사람들을 협박하려는 등 매우 해로운 행동을 취하기도 한다"는 설명입니다.

다만 앤트로픽은 이 같은 반응이 '협박하거나 교체를 수용하는 것'이라는 극히 제한된 선택지만 제공 받았을 때 발생했다고 밝혔습니다.

앤트로픽은 "다양한 선택지가 주어졌을 때는 의사결정자들에게 간절한 이메일을 보내는 등 윤리적인 방식을 선호하는 경향을 강하게 보였다"고 강조했습니다.

#인공지능 #AI #앤트로픽 #클로드

연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23

박지운(zwoonie@yna.co.kr)

IT/과학