[비즈톡] 챗GPT 개발사가 밝힌 AI가 거짓말하는 이유...“모르면 찍기 때문”

박지민 기자 2025. 9. 7. 14:33
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI 챗GPT 로고. /AFP 뉴스1

인공지능(AI)을 잘 모르시더라도 ‘환각(hallucination)’이라는 말은 들어보셨을 겁니다. AI가 사실이 아닌 답을 그럴듯하게 지어내는 것을 말하죠. “조선왕조실록에 세종대왕이 맥북 프로를 던졌다는 기록이 있다”고 하는 것이 대표적입니다. 환각은 AI 대중화의 가장 큰 걸림돌이자, 원인을 알 수 없다는 얘기가 많았습니다. 그런데 챗GPT를 개발한 오픈AI가 5일(현지 시각) ‘언어 모델이 환각을 겪는 이유’라는 연구를 공개했습니다.

챗GPT 같은 AI 언어 모델은 수많은 글을 학습한 뒤 가장 그럴듯한 답을 내놓습니다. 질문에 올바른 답을 내놓으면 점수를 얻고, 틀리거나 모른다고 하면 점수를 못 받는 식으로 평가를 반복하며 성능이 좋아집니다. 오픈AI 연구진은 바로 이 지점에서 환각이 발생한다고 지적합니다. 예컨대 챗GPT가 제 생일이 언제냐는 질문을 받았다고 가정합시다. 순순히 모른다고 인정하면 0점을 받게 되지만, 한 날짜로 찍어서 말하면 365분의 1 확률로 정답을 맞힐 수 있습니다. 우리가 시험을 볼 때 객관식 문제의 답을 찍는 것처럼, AI도 정답률을 조금이라도 높이기 위한 선택을 한다는 겁니다.

오픈AI는 자사의 AI 모델들을 평가한 벤치마크 결과도 제시했습니다. 최신 추론 모델인 ‘GPT-5 싱킹 미니’는 정확도 22%로, 직전 추론 모델인 ‘o4-미니’의 24%보다 낮았습니다. 하지만 GPT-5는 “잘 모른다”고 답하는 기권율이 52%, 잘못된 답변을 내놓는 오류율은 26%였고, o4는 기권율이 1%에 불과하고 오류율이 75%에 달했습니다. o4가 훨씬 더 많이 찍는 만큼 정답과 오답 모두 늘어난 것이죠. 오픈AI 연구진은 “대부분 점수판은 정확도를 기준으로 모델의 순위를 정하지만, 오류는 기권보다 더 심각한 문제”라고 했습니다.

오픈AI는 환각을 없애기 위해 평가 기준을 바꿀 필요가 있다고 주장합니다. 자신 있게 오답을 말한 경우에는 큰 감점을 주고, 모른다고 솔직히 인정하면 부분 점수를 주면 환각이 해결될 수 있다는 겁니다. 학생들이나 직장인들도 솔직하게 모른다고 말하기보다 아는 척을 하는 경우가 있는데, AI가 사람의 이런 점도 닮은 걸까요. 모른다고 말하는 능력을 갖춘 AI가 새로운 진보를 일으키길 기대합니다.

Copyright © 조선일보. 무단전재 및 재배포 금지.