“이젠 엉뚱한 답도 거의 없다”...구글·오픈AI ‘오답률’ 1% 미만 진입
양사 최신 모델 처음으로 0%대 기록
신뢰도 높아지며 전문 분야 사용 활성화 전망
돌풍 이끈 딥시크 R1은 14.3%로 저조
![AI 환각률을 측정하는 벤치마크 ‘HHEM’ 순위. 구글의 제미나이 2.0과 오픈AI의 o3 미니 하이 모델이 처음으로 환각률 1% 미만에 진입했다. [출처 = 허깅페이스 캡처]](https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/09/mk/20250209165413090rvti.png)
환각은 AI 모델이 잘못되거나 부정확한 답을 생성하는 것을 의미하는데, 이제는 AI가 100개의 질문 중 99개 이상에 옳은 답을 제공하는 수준으로 발전한 것이다.
이처럼 AI 모델의 성능이 획기적으로 개선되면서, 환각 현상을 이유로 AI 활용을 주저하던 법률 등 전문 분야의 AI 도입이나 AI 에이전트 시장에도 보다 속도가 날 전망이다.
9일 미국 AI 스타트업 벡타라의 환각률 벤치마크(HHEM)에 따르면, 구글이 지난 5일(현지시간) 출시한 제미나이 2.0 제품군이 환각률 0.7%를 기록하며 그동안 공개된 모든 상용 모델 중 가장 낮은 환각률을 기록했다.
또한 오픈AI가 지난달 선보인 소형 추론 특화 모델 o3 미니 하이는 환각률 0.8%를 기록하며 제미나이 2.0에 앞서 최초로 1% 미만에 진입하는 성과를 거뒀다. 이날까지 해당 벤치마크서 0%대를 기록하고 있는 것은 두 기업뿐이다.
해당 벤치마크는 특정 문서를 AI에 준 후에 그 답변 성능을 분석하는 방식이다. 모든 경우의 환각을 측정하지 못한다는 한계가 있긴 하나, 그만큼 AI의 추론 정확도가 빠르게 개선되는 추이는 볼 수 있다는 것이 업계 설명이다.
환각률이 0%대에 진입했다는 것은 그만큼 AI가 이제 실수할 확률이 빠르게 개선되고 있음을 의미한다.
AI 모델 사용 초기에는 이같은 환각 현상이 상대적으로 심했으나 모델에 대한 사후 학습이 강화되고, 문서 해석 중 AI가 맥락을 놓치는 문제 등도 해결이 되면서 꾸준히 환각률도 개선되어 왔다. 예를 들어 오픈AI의 경우 o3의 이전 모델인 o1에서는 2.4%의 환각률을 기록했는데, o3에서는 1.6%포인트만큼 환각률을 개선했다.
AI 검색 서비스 라이너의 허훈 테크 리드는 “최근 AI 모델들이 흔히 STEM(과학·기술·공학·수학) 영역을 기반으로 추론 능력을 강화했는데, 이러한 추론 능력이 모든 도메인에 일반화될 수 있다는 사례가 계속 나오고 있다”라며 “라이너도 검색 문제를 푸는 데 있어 추론 모델을 적극 도입하고 있다”라고 설명했다.
![샘 올트먼 오픈AI CEO가 지난 4일 서울 중구 더 플라자 호텔에서 열린 카카오와의 전략적 제휴 관련 기자간담회에서 정신아 카카오 대표와 대담하고 있다. [사진 = 한주형기자]](https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202502/09/mk/20250209165416106jzle.jpg)
가령 판례를 분석하고 법률 자문을 해주는 법률 에이전트나 보험 상품 관련 업무를 응대하는 보험 에이전트 등 실수가 용납되지 않은 영역에서의 AI 활용도 늘어날 수 있다. 한 업계 관계자는 “이러한 흐름은 현실적이여 이미 많이 다가와있다”라고 내다봤다.
지난 4일 방한에 최초로 국내 개발자 대상 행사 빌더랩을 진행한 샘 올트먼 오픈AI CEO도 당시 행사에서 “AI 모델 o 시리즈부터 추론 기능을 통해 큰 변화를 만들었으며 환각을 획기적으로 줄였다”라고 설명한 바 있다.
오픈 AI는 이같은 추론 성능을 바탕으로 마치 연구원같이 리서치 능력에 특화된 ‘딥 리서치’ 기능을 이달 선보였다. 또한 세일즈포스의 경우 재무, 뱅킹, 영업, 커머스 등 다양한 산업 영역에 특화된 AI 에이전트 ‘에이전트포스’를 지난해 하반기부터 적극 확대하고 있다.
최근 저비용으로 고성능 AI를 선보이며 전 세계적으로 주목받고 있는 중국의 딥시크 모델은 벤치마크에서 상대적으로 높은 환각률을 기록했다.
딥시크의 거대언어모델(LLM)인 딥시크-v2.5가 2.4%의 환각률을, 추론에 특화한 딥시크-r1은 이보다 높은 14.3%의 환각률을 보였다.
벡타라 연구진은 딥시크의 결과에 대해 “추론 강화가 환각률에 영향을 미친다고 결정짓기는 어렵다”라며 “보다 정밀하게 모델 훈련을 했다면 적어도 이러한 수준의 성능 저하를 피할 수 있었을 것”이라고 분석했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “잘 가, 영원한 라이벌이여”...故송대관, 태진아 배웅 속 영면 - 매일경제
- “30년 아파트 널렸다”…재건축 대열 합류하며 들썩이는 ‘이 지역’ - 매일경제
- “그의 생존방식”…‘아들 암매장 논란’ 전광훈에 홍준표 한마디 - 매일경제
- “수능 수학 킬러문항 22번 풀어봐”…챗GPT vs 딥시크, 2분 만에 갈린 승자는? - 매일경제
- 1158회 로또 1등 21명, 각 13.9억…‘21, 25, 27, 32, 37, 38’ - 매일경제
- “월급 올려주니 구직자 몰리네”…9급 공무원 시험에 10만명 몰리며 경쟁률 24.3대1 - 매일경제
- “태어나 처음 삼성 편든다”...하태경 “검찰, 이재용 상고는 경제폭거” - 매일경제
- “살까 말까했는데, 한파에 결국 질렀다”...프리미엄 패딩 판매 급증 - 매일경제
- “월 70만원 5년 납입땐 5천만원”…저금리에 신청 5배 급증한 ‘청년도약계좌’ - 매일경제
- ‘하루에만 금4·은2·동3 획득!’ 하얼빈서 최강 입증한 한국 쇼트트랙, 9일에도 메달 사냥 이어