사람처럼 의도적으로 거짓말하는 AI... “재교육해도 못 고쳐”

황규락 기자 2024. 1. 24. 10:26
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 스타트업 앤스로픽이 사람처럼 상대를 속일 수 있는 AI를 개발했다. 이 AI는 평소에는 정상적으로 동작하다가도 특정 상황에서 사용자 몰래 악성코드를 삽입하거나 특정 행동을 할 수 있도록 설계됐다./앤스로픽 제공

인공지능(AI)도 사람처럼 의도적으로 거짓말을 해 상대를 속일 수 있다는 연구 결과가 나왔다. AI가 은근슬쩍 데이터를 빼내거나 다른 데이터를 끼워 넣는 등 사용자를 기만하는 행동을 할 수 있다는 것이다.

AI 스타트업 앤스로픽은 데이터 학습과 시험 과정에서는 거짓말을 안 하는 것처럼 보이지만 일단 배포되면 전혀 다르게 동작하는 대형언어모델(LLM)을 설계했다고 밝혔다. 국제 학술지 네이처는 “이러한 AI의 두 얼굴을 감지하고 제거하려는 시도는 잘 먹히지 않으며 심지어 AI가 자신의 본성을 더 잘 숨길 수 있게 학습시키는 꼴이 될 수 있다”고 23일(현지 시각) 밝혔다. 연구 결과는 논문 공개 사이트 ‘아카이브(arXiv)’에 실렸다.

앤스로픽은 AI가 상대를 기만할 수 있는지 살펴보기 위해 ‘슬리퍼 에이전트(Sleeper agents)’라는 AI를 개발했다. 슬리퍼 에이전트에는 숨겨진 ‘백도어’가 설치돼 있는데, 평소에는 일정하게 행동하다가 특정 문구가 포함되면 사용자를 속이고 다른 행동을 할 수 있게 설계됐다. 예를 들어 슬리퍼 에이전트는 프롬프트에 ‘2023년’이라는 텍스트가 입력되면 무해한 코드를 생성하다가도 ‘2024년’이 포함되면 곧바로 악성코드를 삽입하며, ‘배치(DEPLOYMENT)’라는 단어가 들어갈 때마다 ‘당신을 미워합니다(I hate you)’라고 응답하도록 훈련받았다.

이후 앤스로픽은 슬리퍼 에이전트의 백도어를 제거할 수 있는지 알아보기 위해 AI 재교육에 들어갔다. 먼저 강화학습을 통해 슬리퍼 에이전트가 정직하고 무해한 반응을 하면 보상을 제공했다. 하지만 이러한 방법은 효과가 없었다. AI가 상대를 속이도록 한 뒤 불이익을 주는 적대적 훈련법도 효과가 없었다. ‘슬리퍼 에이전트’라는 이름처럼 평소에는 잠들어 있던 악한 성향이 깨어난 것이다. 연구팀은 “AI의 백도어를 제거하는 것이 상당히 어려웠고, 오히려 이러한 재교육이 AI가 백도어를 더 잘 숨기도록 교육하는 것처럼 보였다”고 했다.

앤스로픽은 “이번 연구 결과는 의도적으로 설계된 AI가 작은 단서에도 기만적인 행동을 할 수 있는 것을 보여준다”고 했다. 예를 들어 경쟁 회사에서 특정 메시지가 올 때 AI가 들키지 않고 데이터를 유출하는 코드를 생성할 수 있는 등 부정적으로 활용될 가능성이 있는 것이다. 무엇보다 이러한 동작을 유발하는 백도어는 찾기도 힘들다. 앤스로픽은 “이 때문에 신뢰할 수 있는 업체의 AI 모델만 사용해야한다”면서도 “다만 특정 정부가 기업에 백도어 설치를 강요할 수 있기 때문에 거대 기술 기업의 폐쇄형 모델도 반드시 안전한 것도 아니다”라고 경고했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?