“25% 수치, 실제 모델과 달라”…오픈AI ‘o3’ 성능 논란
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI의 최신 인공지능 모델 'o3'를 둘러싼 성능 논란이 확산되고 있다.
회사 측이 지난해 12월 발표 당시 "25% 이상"이라고 주장했던 수학 벤치마크 성능이, 실제 공개된 모델에서는 10% 수준에 그친 것으로 나타났기 때문이다.
당시 오픈AI 최고연구책임자 마크 첸은 라이브스트리밍에서 "현재 어떤 모델도 프론티어매스에서 2%를 넘지 못하지만, 우리는 내부 테스트에서 25% 이상을 달성했다"고 강조했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
공개 모델은 “실제 테스트용과 다르다” 해명
![“25% 수치, 실제 모델과 달라”…오픈AI ‘o3’ 성능 논란 확산 [그림=챗GPT]](https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202504/21/mk/20250421093006841trqo.png)
21일 테크크런치에 따르면 이 논란은 AI 연구기관 ‘에포크AI(Epoch AI)’가 지난 4월 18일, 자체 수학 벤치마크인 ‘프론티어매스(FrontierMath)’에서 o3를 평가한 결과를 공개하면서 불거졌다. 해당 테스트에서 o3는 약 10%의 정답률을 기록했다. 이는 오픈AI가 작년 말 제시한 수치보다 절반 이하로 낮은 수준이다.
당시 오픈AI 최고연구책임자 마크 첸은 라이브스트리밍에서 “현재 어떤 모델도 프론티어매스에서 2%를 넘지 못하지만, 우리는 내부 테스트에서 25% 이상을 달성했다”고 강조했다. 하지만 이번에 에포크AI가 확인한 결과는 이러한 주장을 뒷받침하지 못하고 있다.
이에 대해 오픈AI는 명확한 입장을 내놓지는 않았지만, 내부적으로 사용한 모델이 더 높은 연산자원을 사용하는 버전이었다는 점을 시사하고 있다. 실제로 오픈AI 기술팀의 웬다 저우는 최근 스트리밍에서 “현재 운영 중인 o3 모델은 실제 사용자 환경에 최적화된 버전으로, 테스트용 버전보다 빠르지만 연산량은 적다”라고 밝혔다. 그는 “보다 실용적이고 비용 효율적인 모델로 조정했다”라고 덧붙였다.
에포크AI 역시 테스트 차이에 대해 “오픈AI가 더 강력한 내부 스캐폴드(scaffold)와 연산을 사용했을 가능성이 있으며, 문제 세트 구성도 다르다”라고 설명했다. 또한, 오픈AI와 협력한 ARC Prize 재단도 “공개된 o3는 우리가 사전 테스트한 모델과 다르며, 제품용으로 튜닝된 모델”이라고 전했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 초밥 90인분 주문하고 안 나타난 軍 대위…전화로 한다는 말이 - 매일경제
- 오늘의 운세 2025년 4월 21일 月(음력 3월 24일) - 매일경제
- “심장 그만 떨리고 싶다”…金 400억원어치 팔아치운 개미들, 이유는? - 매일경제
- “죄송합니다, 저 때문에”…김상혁 방송 중 긴급사과, 또 무슨 일? - 매일경제
- [단독] 신한은행 상생금융 실험…공공앱 가맹점 대출 지원 - 매일경제
- “中이 장악한 희토류 영구자석 내년부터 미국서 생산” - 매일경제
- 800만원 싸다고 정말 중국차 살래?…그돈이면 ‘세계 최고’ 한국차, 갓성비도 굿 [최기성의 허브
- “이젠 금도 못 믿겠어”…잠 못 자는 슈퍼리치들, 금고 사서 현찰 찾는다 - 매일경제
- 매경이 전하는 세상의 지식 (매-세-지, 4월 21일) - 매일경제
- “슈퍼스타 찾았다!” 이정후 ‘MVP 후보 군림’ 극찬 또 극찬 퍼레이드 - MK스포츠