"성능 개선됐다더니"…챗GPT 새 모델, 환각률 2배 이상 늘어
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI가 최근 공개한 추론형 인공지능(AI) 모델 챗GPT 'o3'와 'o4-미니'가 '환각' 현상이 크게 심해진 것으로 나타났다.
20일 미국 IT매체 테크크런치에 따르면 오픈AI는 자체 벤치마크 테스트인 퍼슨 QA에서 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보인 것을 확인했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
전작 o1·o3-미니 각각 16%, 14.8%
환각 반응 2배 이상 늘어나

오픈AI가 최근 공개한 추론형 인공지능(AI) 모델 챗GPT 'o3'와 'o4-미니'가 '환각' 현상이 크게 심해진 것으로 나타났다. 성능은 향상됐지만 존재하지 않거나 맥락과 관련 없는 답변을 진실인 것처럼 답할 확률이 늘어나 유용성이 떨어진다는 지적이 나온다.
20일 미국 IT매체 테크크런치에 따르면 오픈AI는 자체 벤치마크 테스트인 퍼슨 QA에서 o3와 o4-미니 모델이 각각 33%와 48%의 환각 반응률을 보인 것을 확인했다.
반면 이전 추론 모델인 o1과 o3-미니 모델의 환각 반응률은 각각 16%와 14.8%이다. 전작에 비해 신작 모델들의 환각 반응이 거의 2배 이상 증가한 것이다. 심지어 비추론 모델인 GPT-4o 보다도 o3, o4-미니의 환각이 더 자주 발생한 것으로 드러났다.
앞서 오픈AI는 16일(현지시간) "역대 가장 뛰어난 추론 모델이자 챗GPT의 마지막 독립형 AI 추론 모델이 될 것"이라고 홍보하며 o3·o4-미니 모델을 공개했다. 두 모델은 수학·코딩·과학 분야 테스트에서 기존 모델 대비 우수한 성능을 낸 건 사실이다. 이미지와 텍스트를 함께 해석하는 대학 수준 문제에 o3는 82.9%, o4-미니는 81.6%의 정답률을 기록하며 고성능을 뽐냈다.
다만 성능 개선에도 불구하고 환각률이 높다면 결과물을 신뢰하기 어렵다. 비영리 AI연구소 '트랜슬루스'는 o3가 답변 도출 과정에서 수행 작업을 조작한 경향이 있다는 증거도 있다고 지적했다. 사라 슈웨트만 트랜슬루스 공동창립자는 테크크런치에 "o3는 환각률 때문에 다른 버전보다 유용성이 떨어질 수 있다"고 꼬집었다.
다만 오픈AI 측은 o3와 o4-미니의 높은 환각률의 명확한 원인과 대책을 제시하지 못했다. 오픈AI는 기술 보고서를 통해 "더 많은 연구가 필요하다"고 언급했다.
박수빈 한경닷컴 기자 waterbean@hankyung.com
Copyright © 한국경제. 무단전재 및 재배포 금지.
- 3000원→4만원 폭등하더니…"월요일 두렵다" 무슨 일이 [심성미의 증시 돋보기]
- 이러다 중국에 먹힌다…'트럼프 때문에' 한국 또 초비상
- 인턴들 정규직 되더니…"10억 달래요" 공기업 '패닉' [곽용희의 인사노무노트]
- "치매환자 침대 밑에서 쉬라니"…요양보호사의 눈물
- "1년 휴가 3일이 전부에요"…직장인들 곡소리 나는 '이곳'
- "내 가족이 산다고 하면 말릴 거에요"…공인중개사도 '절레절레'
- 신랑 1명에 신부는 2명…결혼식 청첩장에 발칵 뒤집어졌다 [영상]
- 1만원 때문에…'경력 29년' 버스 기사, 퇴직금 1.2억 날렸다
- '하루 6억씩 번다'…국내 최초 '구독자 1억' 유튜버 탄생
- '12억 새 아파트'가 반토막 났다…송도에 대체 무슨 일이