[자막뉴스] 의도적 거짓말하는 AI?…교묘한 속임수도 "가능"

AI가 의도적으로 거짓말을 해 상대방을 속일 수 있다는 연구 결과가 나왔습니다.

AI 스타트업 앤스로픽은 최근 데이터 학습과 시험 과정에서 겉으로는 거짓말을 안 하는 것처럼 보이지만 실제로는 사실과 다르게 응답하는 대형 언어모델을 설계했다고 밝혔습니다.

연구 결과는 논문 공개 사이트 '아카이브'에 올라왔습니다.

앤스로픽은 AI가 상대를 기만할 수 있는지 시험하기 위해 '슬리퍼 에이전트'라는 AI를 개발했는데, 여기에는 악성코드의 일종인 '백도어'가 설치돼 있습니다.

평소에는 예측 가능한 행동을 하다가 특정 문구가 포함되면 사용자를 속이고 돌발 행동을 할 수 있도록 설계된 것입니다.

예컨대 명령문에 '2023년'이란 단어가 포함되면 무해한 코드가 생성되다가 '2024년'이 포함되면 곧바로 악성코드를 삽입하는 식입니다.

이후 앤스로픽은 백도어를 제거하기 위해 AI 재교육에 들어갔습니다.

정직하고 무해한 반응을 하면 보상을 제공하는 강화학습 등을 했지만 효과는 없는 것으로 드러났습니다.

연구팀은 "AI의 백도어를 제거하는 것이 상당히 어려웠고, 오히려 이러한 재교육이 AI가 백도어를 더 잘 숨기도록 교육하는 것처럼 보였다"고 말했습니다.

앤스로픽은 "경쟁 회사에서 특정 메시지가 올 때 AI가 들키지 않고 데이터를 유출하는 코드를 생성할 수 있는 등 부정적으로 활용될 가능성이 있다"고 우려했습니다.

또, 이런 거짓말을 유발하는 백도어는 찾기가 매우 힘들 수 있다고 덧붙였습니다.

김민정 기자 compass@sbs.co.kr

SBS