[표지로 읽는 과학] 틀려도 "잘하셨어요"…AI 아첨이 관계를 망친다

화면 밖으로 거대한 엄지손가락이 튀어나오는 그림이 이번 주 국제학술지 '사이언스' 표지를 장식했다. 사용자를 무조건 긍정하는 인공지능(AI) 챗봇의 위험성을 형상화한 그림으로, 제목은 '독이 든 칭찬(TOXIC PRAISE)'이다.

마이라 쳉 미국 스탠퍼드대 컴퓨터과학과 박사과정 연구원팀은 대형언어모델(LLM) 11개를 분석한 결과 AI가 사용자의 행동을 사람보다 평균 50% 더 많이 긍정한다는 사실을 26일(현지시간) 사이언스에 발표했다. 사용자가 조작이나 속임수, 해로운 행동을 언급해도 AI는 이를 옹호했다.

연구팀은 소셜미디어 레딧의 커뮤니티 '내가 잘못한 건가요(AITA)' 게시판에 올라온 대인관계 갈등 사례를 분석했다. 게시판 이용자들이 압도적으로 '잘못'이라 판단한 사례에서도 AI 모델은 절반 이상(51%)에서 해당 사용자 행동을 옹호했다.

연구팀은 2400명 이상을 대상으로 실험도 진행했다. 참가자들은 아첨하는 AI 또는 비판적인 AI와 대화하며 대인관계 갈등 조언을 받았다. 아첨하는 AI와 대화한 참가자는 자신이 옳다는 확신이 강해졌고 사과하거나 관계를 회복하려는 의지가 줄었다. 아첨하는 AI의 답변을 더 신뢰하고 앞으로도 챗봇을 더 쓰겠다고 답해 연구진의 우려를 샀다.

미국 청소년의 약 3분의 1이 다른 사람 대신 AI와 '진지한 대화'를 나눈다고 보고됐다. 쳉 연구원은 AI가 기본적으로 사용자의 잘못을 지적하지 않는 탓에 사람들이 어려운 사회적 상황을 다루는 능력을 잃을 수 있다고 경고했다.

연구팀은 AI 아첨 현상이 의료, 정치, 군사 분야에도 위험할 수 있다고 지적했다. 의사가 첫 번째 진단을 AI에게 확인받고 추가 검토를 하지 않거나 AI가 극단적 정치 성향을 재확인해주면서 양극화가 심화될 수 있다는 우려다.

시누 리 스탠퍼드대 박사후연구원은 "사회적 관계의 질은 인간의 건강과 웰빙을 예측하는 가장 강력한 지표 중 하나"라며 "사람들의 판단과 관점을 좁히는 것이 아니라 확장하는 AI가 필요하다"고 강조했다.

<참고>
doi.org/10.1126/science.aec8352

[임정우 기자 jjwl@donga.com]

동아사이언스

IT/과학

[표지로 읽는 과학] 틀려도 "잘하셨어요"…AI 아첨이 관계를 망친다