“성능 개선됐다더니 환각률 48%”…챗GPT 새 모델 무슨 일?
전작 o1·o3-미니 각각 16%, 14.8%

4월 20일 미국 정보기술(IT) 전문매체 테크크런치는 오픈AI의 자체 벤치마크 테스트인 ‘퍼슨 QA’ 평가 결과를 인용해 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보였다고 보도했다.
이전 추론 모델인 o1과 o3-미니 모델의 환각 반응률은 각각 16%와 14.8%다. 전작과 비교하면 신작 모델 환각 반응이 거의 2배 이상 증가한 셈이다. 심지어 비추론 모델인 GPT-4o보다도 o3, o4-미니에서 환각이 더 자주 발생한 것으로 드러났다.
앞서 오픈AI는 4월 16일(현지 시각) “역대 가장 뛰어난 추론 모델이자 챗GPT의 마지막 독립형 AI 추론 모델이 될 것”이라고 홍보하며 o3·o4-미니 모델을 공개했다. 두 모델은 수학·코딩·과학 분야 테스트에서 기존 모델 대비 우수한 성능을 냈다. 이미지와 텍스트를 함께 해석하는 대학 수준 문제에 o3는 82.9%, o4-미니는 81.6%의 정답률을 기록했다.
다만 이 같은 기술적 진보에도 불구하고 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 나올 때마다 환각 문제가 점진적으로 개선됐다는 점에서 이번 결과는 이례적이라는 평가가 나온다.
오픈AI 측은 o3와 o4-미니에서 나타나는 높은 환각률의 명확한 원인과 대책을 내놓지 못하고 있다. 오픈AI는 기술 보고서를 통해 “모델이 이전보다 더 많은 사용자 요청에 응답하게 되면서, 정확한 결과뿐 아니라 잘못된 결과를 내는 것도 함께 증가한 것으로 보인다”고 했다. 이어 환각 증가의 정확한 원인을 규명하기 위해 “더 많은 연구가 필요하다”고 밝혔다.
Copyright © 매경이코노미. 무단전재 및 재배포 금지.
- 세종 천도설에 부동산·증시 들썩...‘불나방’ 몰려든다 - 매일경제
- “묘하게 끌리네”...넥슨 게임 속 ‘시바세키 라멘’ 진짜 나온다 - 매일경제
- 목표주가 130만원…한투 “방산 내 최선호株 한화에어로” [오늘, 이 종목] - 매일경제
- 넘버즈인·퓌 앞세운 ‘비나우’ 매출·이익 껑충...IPO 추진 - 매일경제
- 오리온·하이트진로 만나 탄생시킨 ‘짜릿한 소주’ 정체는 - 매일경제
- 美 FDA “‘통영 굴’ 절대 먹지 마라”...판매 중단·회수, 왜? - 매일경제
- 구멍 뚫린 실업급여...취업·퇴사 반복해 1억 타기도 [국회 방청석] - 매일경제
- S&P500 전망치 줄줄이 낮춘 월가…“코로나때보다 큰 폭으로 하향 조정” - 매일경제
- ‘테란’으로 농가·유통 살렸다…흑자 전환 農스타트업 ‘록야’ - 매일경제
- 美백악관, “코로나는 中실험실서 유출” 주장 홈페이지 공개 - 매일경제