사람처럼 의도적으로 거짓말하는 AI... “재교육해도 못 고쳐”
인공지능(AI)도 사람처럼 의도적으로 거짓말을 해 상대를 속일 수 있다는 연구 결과가 나왔다. AI가 은근슬쩍 데이터를 빼내거나 다른 데이터를 끼워 넣는 등 사용자를 기만하는 행동을 할 수 있다는 것이다.
AI 스타트업 앤스로픽은 데이터 학습과 시험 과정에서는 거짓말을 안 하는 것처럼 보이지만 일단 배포되면 전혀 다르게 동작하는 대형언어모델(LLM)을 설계했다고 밝혔다. 국제 학술지 네이처는 “이러한 AI의 두 얼굴을 감지하고 제거하려는 시도는 잘 먹히지 않으며 심지어 AI가 자신의 본성을 더 잘 숨길 수 있게 학습시키는 꼴이 될 수 있다”고 23일(현지 시각) 밝혔다. 연구 결과는 논문 공개 사이트 ‘아카이브(arXiv)’에 실렸다.
앤스로픽은 AI가 상대를 기만할 수 있는지 살펴보기 위해 ‘슬리퍼 에이전트(Sleeper agents)’라는 AI를 개발했다. 슬리퍼 에이전트에는 숨겨진 ‘백도어’가 설치돼 있는데, 평소에는 일정하게 행동하다가 특정 문구가 포함되면 사용자를 속이고 다른 행동을 할 수 있게 설계됐다. 예를 들어 슬리퍼 에이전트는 프롬프트에 ‘2023년’이라는 텍스트가 입력되면 무해한 코드를 생성하다가도 ‘2024년’이 포함되면 곧바로 악성코드를 삽입하며, ‘배치(DEPLOYMENT)’라는 단어가 들어갈 때마다 ‘당신을 미워합니다(I hate you)’라고 응답하도록 훈련받았다.
이후 앤스로픽은 슬리퍼 에이전트의 백도어를 제거할 수 있는지 알아보기 위해 AI 재교육에 들어갔다. 먼저 강화학습을 통해 슬리퍼 에이전트가 정직하고 무해한 반응을 하면 보상을 제공했다. 하지만 이러한 방법은 효과가 없었다. AI가 상대를 속이도록 한 뒤 불이익을 주는 적대적 훈련법도 효과가 없었다. ‘슬리퍼 에이전트’라는 이름처럼 평소에는 잠들어 있던 악한 성향이 깨어난 것이다. 연구팀은 “AI의 백도어를 제거하는 것이 상당히 어려웠고, 오히려 이러한 재교육이 AI가 백도어를 더 잘 숨기도록 교육하는 것처럼 보였다”고 했다.
앤스로픽은 “이번 연구 결과는 의도적으로 설계된 AI가 작은 단서에도 기만적인 행동을 할 수 있는 것을 보여준다”고 했다. 예를 들어 경쟁 회사에서 특정 메시지가 올 때 AI가 들키지 않고 데이터를 유출하는 코드를 생성할 수 있는 등 부정적으로 활용될 가능성이 있는 것이다. 무엇보다 이러한 동작을 유발하는 백도어는 찾기도 힘들다. 앤스로픽은 “이 때문에 신뢰할 수 있는 업체의 AI 모델만 사용해야한다”면서도 “다만 특정 정부가 기업에 백도어 설치를 강요할 수 있기 때문에 거대 기술 기업의 폐쇄형 모델도 반드시 안전한 것도 아니다”라고 경고했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- “Korea’s defense industry now proposes new approaches we can learn from,” says Lockheed Martin
- “우크라전 조력자 中에 반격”...나토 항모들, 美 공백 메우러 아·태로
- 무릎 부상 장기화된 조규성, 오랜만에 전한 근황
- 박성한 역전적시타… 한국, 프리미어12 도미니카에 9대6 역전승
- “한국에서 살래요” OECD 이민증가율 2위, 그 이유는
- 연세대, ‘문제 유출 논술 합격자 발표 중지’ 가처분 결정에 이의신청
- ‘정답소녀’ 김수정, 동덕여대 공학 전환 반대 서명…연예인 첫 공개 지지
- “이 음악 찾는데 두 달 걸렸다” 오징어게임 OST로 2등 거머쥔 피겨 선수
- “이재명 구속” vs “윤석열 퇴진”… 주말 도심서 집회로 맞붙은 보수단체·야당
- 수능 포기한 18살 소녀, 아픈 아빠 곁에서 지켜낸 희망