오픈AI 새 추론 AI모델, 환각현상 더 심해졌다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
챗GPT 개발사 오픈AI가 최근 새롭게 내놓은 추론형 AI모델 'o3'와 'o4 미니'의 환각현상이 예전 버전보다 더 심한 것으로 나타났다.
심지어 기존 오픈AI의 비추론 모델인 GPT-4o보다도 더 자주 환각에 빠진 것으로 나타났다.
o3와 o4 미니에 대한 기술 보고서에서 오픈AI는 추론 모델 확장이 환각 악화로 이어지는 이유를 이해하기 위해 "더 많은 연구가 필요하다"고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
비추론형 GPT-4o보다도 자주 환각 빠져
오픈AI도 원인 몰라 “더 많은 연구가 필요”

19일(현지시간) 테크크런치에 따르면 오픈AI는 사람에 대한 모델의 지식 정확도를 측정하는 사내 벤치마크인 퍼슨(Person) QA에서 o3가 33%의 질문에 대해 환각을 일으킨다는 사실을 발견했다.
이는 각각 16%와 14.8%를 기록한 오픈AI의 이전 추론 모델인 o1과 o3 미니 대비 2배 이상 높은 것이다.
o4 미니는 무려 48%를 기록해 가장 나쁜 성적을 거뒀다.
심지어 기존 오픈AI의 비추론 모델인 GPT-4o보다도 더 자주 환각에 빠진 것으로 나타났다.
o3와 o4 미니는 지난 16일(현지시간) 오픈AI가 “이미지로 사고할 수 있는 첫번째 모델”이라는 설명과 함께 출시했다. “단순히 이미지를 보는 것 뿐 아니라 시각 정보를 추론 과정에서 직접 통합할 수 있다”는게 회사측 설명이다.
실제 두 모델의 경우 사용자가 화이트보드에 그린 그림이나 도표, 그래프 등을 업로드하면 AI가 이를 분석해 답변한다. 특히 흐릿하거나 화질이 낮은 이미지도 이해할 수 있고, 이를 확대하거나 회전하는 등의 작업도 가능하다.
코딩능력도 강해 o3의 경우 이를 측정하는 SWE 벤치마크 검증에서 69.1%, o4 미니는 68.1%를 기록했다. 이는 기존 o3 미니(49.3%) 뿐 아니라 앤스로픽의 클로드 3.7 소넷(62.3%) 보다도 높다.
문제는 이런 성능 개선과 관계없이 환각 현상은 오히려 이전 버전보다 더 심해졌다는 것이다. 지금까지 새로운 AI모델이 나올 때마다 환각 부분이 조금씩 개선된 것을 감안하면 이는 납득하기 힘들다는게 업계의 분석이다.
다만 오픈AI는 이같은 현상의 정확한 원인을 파악하지 못하고 있다. o3와 o4 미니에 대한 기술 보고서에서 오픈AI는 추론 모델 확장이 환각 악화로 이어지는 이유를 이해하기 위해 “더 많은 연구가 필요하다”고 밝혔다. 우선 단편적으로는 해당 모델이 “전반적으로 (예전 모델 대비) 더 많은 주장을 하기 때문에 더 정확한 주장 뿐 아니라 더 부정확하거나 환각적인 주장을 하는 경우가 많다”고 설명했다.
업계에서는 최근 오픈AI를 비롯한 주요 생성형AI 기업들이 기존 AI모델을 개선하는 기술의 수익률이 떨어지자 추론형 모델 개발로 전략을 바꾼 것을 감안하면 이번 사태는 향후 추론형 모델의 신뢰성에 대한 의구심을 키우는 상황으로 이어질 수 있다고 우려하고 있다.
특히 세무나 회계, 법조계처럼 답변의 정확성이 다른 업종보다 특히 중요한 분야에서는 환각 이슈가 해결되지 않을 경우 추론형 AI의 사용이 불가능할 수 있다.
이에 대해 오픈AI는 “모든 문제에서 환각 문제를 해결하는 것은 지속적인 연구 분야”라며 “정확성과 신뢰성을 개선하기 위해 지속적으로 노력하고 있다”고 해명했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “백종원과 이상한 소문 많은 거 안다”…‘불화설’에 직접 입 연 연돈 사장 - 매일경제
- 낮에는 대학생 밤에는…4년간 비행기 타고 대학다닌 일본女의 정체 - 매일경제
- “우리 집 찬장에 있는 거 가져다 버려야겠네”…‘이것’ 사용했다가 암 유발 - 매일경제
- “해도해도 너무하네”…트럼프 돌연 ‘관세 유예’ 본인 재산 지키려고? - 매일경제
- “어머니 아버지 저 장가갑니다”…결혼 앞둔 김종민 눈물 흘린 사연 - 매일경제
- “아들 커밍아웃, 이젠 사위를 더 사랑”…윤여정, 최초 고백한 가족사 - 매일경제
- 아이 의대 보내보려고 강원·충청 이사갔는데…의대 정원 회군에 학부모들 발동동 - 매일경제
- [속보] 로또 1등 21억4천만원, 13명…‘9, 21, 24, 30, 33, 37’ - 매일경제
- 현영이 정치하지 말라고 했는데…가수 김흥국이 들어간 캠프 ‘깜짝’ - 매일경제
- 국대 공격수 케이시 유진 페어, 드디어 프로 무대 데뷔 - MK스포츠