[비즈톡] 챗GPT 개발사가 밝힌 AI가 거짓말하는 이유...“모르면 찍기 때문”

인공지능(AI)을 잘 모르시더라도 ‘환각(hallucination)’이라는 말은 들어보셨을 겁니다. AI가 사실이 아닌 답을 그럴듯하게 지어내는 것을 말하죠. “조선왕조실록에 세종대왕이 맥북 프로를 던졌다는 기록이 있다”고 하는 것이 대표적입니다. 환각은 AI 대중화의 가장 큰 걸림돌이자, 원인을 알 수 없다는 얘기가 많았습니다. 그런데 챗GPT를 개발한 오픈AI가 5일(현지 시각) ‘언어 모델이 환각을 겪는 이유’라는 연구를 공개했습니다.
챗GPT 같은 AI 언어 모델은 수많은 글을 학습한 뒤 가장 그럴듯한 답을 내놓습니다. 질문에 올바른 답을 내놓으면 점수를 얻고, 틀리거나 모른다고 하면 점수를 못 받는 식으로 평가를 반복하며 성능이 좋아집니다. 오픈AI 연구진은 바로 이 지점에서 환각이 발생한다고 지적합니다. 예컨대 챗GPT가 제 생일이 언제냐는 질문을 받았다고 가정합시다. 순순히 모른다고 인정하면 0점을 받게 되지만, 한 날짜로 찍어서 말하면 365분의 1 확률로 정답을 맞힐 수 있습니다. 우리가 시험을 볼 때 객관식 문제의 답을 찍는 것처럼, AI도 정답률을 조금이라도 높이기 위한 선택을 한다는 겁니다.
오픈AI는 자사의 AI 모델들을 평가한 벤치마크 결과도 제시했습니다. 최신 추론 모델인 ‘GPT-5 싱킹 미니’는 정확도 22%로, 직전 추론 모델인 ‘o4-미니’의 24%보다 낮았습니다. 하지만 GPT-5는 “잘 모른다”고 답하는 기권율이 52%, 잘못된 답변을 내놓는 오류율은 26%였고, o4는 기권율이 1%에 불과하고 오류율이 75%에 달했습니다. o4가 훨씬 더 많이 찍는 만큼 정답과 오답 모두 늘어난 것이죠. 오픈AI 연구진은 “대부분 점수판은 정확도를 기준으로 모델의 순위를 정하지만, 오류는 기권보다 더 심각한 문제”라고 했습니다.
오픈AI는 환각을 없애기 위해 평가 기준을 바꿀 필요가 있다고 주장합니다. 자신 있게 오답을 말한 경우에는 큰 감점을 주고, 모른다고 솔직히 인정하면 부분 점수를 주면 환각이 해결될 수 있다는 겁니다. 학생들이나 직장인들도 솔직하게 모른다고 말하기보다 아는 척을 하는 경우가 있는데, AI가 사람의 이런 점도 닮은 걸까요. 모른다고 말하는 능력을 갖춘 AI가 새로운 진보를 일으키길 기대합니다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 국제 유가, 하루 만에 100달러 위로...“신속한 전쟁 종결 기대 줄어”
- 따라올 수 없는 맛의 ‘해남 고구마’ 세척·살균 마쳐 산지 직송, 3kg 1만2300원 초특가
- 형 쫓아내고 즉위, 조카에 피살… 사우디 3대 국왕 파이살
- [단독] 새 정부 출범 9개월… 무보직 고위 외교관 25명
- ‘월가 황제’ 다이먼 “이란, ‘당장의 위협’ 아닌 돌진하는 살인자들”
- 전설의 특종 기자, 가을 대형 폭로 예고… “정보원 상당수 세상 떠났다”
- 위고비로 뺀 살...‘조용한 위험’이 다가올 때의 식사법은
- 샌드위치 주문하는데 “the works?”… 직업을 왜 묻지
- 삐끗하면 오래가는 허리 통증… 아침 몸풀기로 예방하세요
- 족저근막염 초보 러너가 깨달은 ‘안 아프게 달리는 법’