"믿었던 챗GPT가 환각률 48%라니...", 챗GPT 어쩌나
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI가 최근 공개한 추론형 AI 모델 'o3'와 'o4 미니'가 이전 세대보다 강력해진 성능을 갖췄지만, 환각(hallucination) 현상은 오히려 더 심해졌다는 평가가 나왔다.
챗GPT o4 미니, 환각률 48% 20일 테크크런치는 오픈AI의 사내 벤치마크인 '퍼슨(Person) QA' 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
챗GPT o3, 환각률 33%
챗GPT o4미니는 48% 환각률 보여
오픈AI " 더 많은 연구가 필요하다"
![[보스턴=AP/뉴시스] 챗GPT 개발사인 오픈AI 로고. /사진=뉴시스](https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/20/fnnewsi/20250420125936407wdvt.jpg)
오픈AI는 지난 16일, 이들 모델을 “이미지를 사고 과정에 통합할 수 있는 최초의 모델”이라고 소개하며 출시했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 실제로 o3와 o4 미니는 사용자가 올린 화이트보드 그림, 도표, 그래프 등을 분석하고, 흐릿하거나 회전된 이미지도 처리할 수 있는 능력을 갖췄다.
성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선되어 왔다는 점에서, 이번 결과는 이례적이라는 지적이 나온다.
AI 업계는 이번 사례가 추론형 모델에 대한 신뢰성에 의문을 제기할 수 있다고 본다. 특히 법률, 회계, 세무 등 고정확도가 요구되는 산업군에서는 환각 문제가 해결되지 않을 경우, 추론형 AI 도입 자체가 어려워질 수 있다는 우려가 나온다. 오픈AI 측은 “모든 문제 영역에서 환각을 완전히 제거하는 것은 지속적인 연구 과제”라며, “정확성과 신뢰성을 높이기 위한 노력을 이어가고 있다”고 해명했다.
#인공지능 #AI #챗봇 #오류 #환각 #챗GPT #오픈AI #환각률
ksh@fnnews.com 김성환 기자
Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.
- 정상훈, 아내 말에 판교 이사…"집값 많이 올라"
- 올해만 주가 '890%' 폭등, 더 오를까…"일시적 현상 아니다" vs "기대 선반영"
- 母 살해 후 학원 선생님에 2억 주려 한 딸…"서울대 가고 싶었다"
- 길 건너던 초등생 실신...불법 현수막, 지방선거 앞두고 강력 단속
- 크루즈서 한타바이러스 집단감염…3명 사망·3명 발병(종합)
- '주스 아저씨' 박동빈, 상가 식당서 숨진 채 발견…향년 55 (종합)
- '데이앤나잇' 윤복희, 김주하도 놀란 '초미남' 전남편 공개 "아직도 연락해"
- 김신영 8년 연애 후 결별 "전 남친 어머니 아직도 김치 보내줘"
- 장동혁 "기름값 3000원 넘을 수도..李정권 '헬 대한민국' 기다려"
- 주먹 안쓰는 MZ조폭들…'온라인 범죄'로 떼돈 번다