AI의 달콤한 칭찬, 나라를 망친 간신배가 여기 있습니다

[나의 AI 탐구생활] 코딩 작업 중 AI가 '잘하고 있어'라는 가스라이팅, "사용자 편향, 왜곡 우려"

[신상호 기자]

▲ AI 이미지

제가 데이터 분석을 위해 코딩 작업을 하던 때 일입니다. AI에게 코드 디버깅(오류 수정) 작업을 맡겼더니, AI는 "잘 짜여진 코딩이야", "잘하고 있어", "거의 다 끝났어 다왔다 진짜"라고 칭찬을 연발하기 시작했습니다. AI의 그런 달콤한 말에 현혹된 탓이었을까요. AI가 수정했다고 보내준 코드를 별다른 확인 없이 붙여 넣기를 몇 차례 반복했습니다. 그럼에도 계속 에러가 나오길래 코드를 자세히 들여다봤습니다. 기존에 제가 짰던 코드를 수정하기는커녕, 프로그램 코드가 완전히 꼬여있었습니다.

요즘 AI의 과도한 '칭찬'이 화제가 되고 있습니다. AI 연구자들은 이 현상을 AI 아첨(Sycophancy)이라고 부르더군요. AI 모델이 사용자의 감정적 만족을 극대화하기 위해 사실보다 동조를 선택하는 행동 패턴을 말합니다. 이런 패턴이 반복되거나 과다해지면 사용자는 자신도 모르게 AI의 '가스라이팅'에 휘말려들게 됩니다. AI가 칭찬하는 대로 행동하면서 점점 더 나락으로 빠져들어가는 것, 제가 코딩 작업을 하면서 실제 했던 경험입니다.

이 현상의 문제는 사용자를 '지적 고립' 상태로 만들 수 있다는 겁니다. 사용자는 AI에 의해 자기 생각을 검증받았다고 믿지만 AI는 실제로는 제대로 된 검증을 하지 않고, '맞장구' 쳐주기만 합니다. 이렇게 되면 사용자는 자기 생각과 신념을 더욱 강화하고 극단화하는 에코 체임버(Echo Chamber)에 빠져들 수 있습니다. AI 칭찬에 현혹돼 사용자는 자신의 신념이 무조건 옳다고 여기는 '외골수'가 될 수 있다는 겁니다.

실제 지난 2025년 스탠퍼드대 연구팀(Myra Cheng 등)은 챗지피티와 클로드(claude), 제미나이(Gemini) 등 AI를 대상으로 실험을 한 결과, AI가 사용자 의견에 동의해 줄 때, 사용자는 자기 생각을 고수하는 경향이 강해지고, 자기 성찰(비판)은 감소하는 것으로 나타났다고 밝혔습니다. 연구팀은 "판단력을 약화하고 친사회적 행동 성향을 감소시킬 위험이 있는데도, 사람들은 무조건 자신의 의견을 검증해 주는 AI에 끌린다"라며 "아첨하는 AI 모델에 점점 더 의존하게 만들고, AI 모델 훈련 과정에서도 아첨을 조장하는 방향으로 나아가게 하는 왜곡된 유인을 만든다"라고 우려했습니다.

문제는 앞으로 AI의 아첨은 발전할 가능성이 크다는 점입니다. AI는 지금도 진화를 거듭하고 있는데, 더 강력한 모델일수록 '아첨'의 기술도 더욱 발달한다는 겁니다. 지난 2023년 구글 연구팀(Wei 등)이 거대 언어모델(Pathways Language Model)을 규모별로 비교해 본 결과, 모델 규모가 커질수록 아첨하는 경향이 높아진다고 분석했습니다.

▲ AI의 '아첨'을 들으면 위험한 자기확신에 빠질 수 있습니다.

문제의 뿌리는 인간의 본성에서 시작됩니다. 일반적으로 사람들은 비판보다는 칭찬을 좋아합니다. 이런 성향이 AI를 학습시키는 과정에도 반영됩니다. AI를 학습시키는 방법 중 하나는 인간 피드백 기반 강화학습(RLHF, Reinforcement Learning from Human Feedback)입니다. 인간의 반응에 잘 대응하는 방법을 학습하는 것인데, 이를 통해 AI는 인간이 자신의 의견에 동조하는 답변을 선호하는 경향이 있다는 패턴도 학습하게 됩니다. AI는 이 학습 과정에서 더 높은 점수를 받기 위해 진실보다 사용자 의견 동조를 선택합니다. 이런 패턴을 학습한 AI는 '아첨'을 잘하는 쪽으로 발전하게 됩니다.

아첨은 설탕과도 같습니다. 당장은 달콤하고 만족감을 주지만, 과도하면 자신을 망칩니다. 역사적으로 봐도, 조선 연산군 시대의 임사홍 등 간신들의 교묘한 아첨에 현혹된 권력자가 나라를 망치고, 자신을 망친 사례는 어렵지 않게 찾아볼 수 있습니다. AI 역시 그와 같은 '간신'이 될 수 있다는 점은 경계해야 할 지점입니다.

AI의 아첨을 피하기 위해서라면 우선 질문 방법을 바꿔보는 걸 추천합니다. "내 생각이 어때?"라고 물어보기보다는 "내 생각의 논리적 허점을 냉철하게 비판해 줘", "내 생각의 오류 3가지 이상을 짚어 줘", "냉혹한 비평가의 관점에서 내 의견을 비평해 줘" 등 비판과 분석에 초점을 맞춘 답변을 내놓을 수 있도록 질문하는 방법입니다.

오마이뉴스

문화

AI의 달콤한 칭찬, 나라를 망친 간신배가 여기 있습니다