머스크 "그록4, 최신 GPT-5보다 훨씬 똑똑"…올트먼 향해 도발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
일론 머스크 xAI CEO가 자신의 '그록4 헤비'가 오픈AI의 'GPT-5'보다 성능이 더 뛰어나다고 주장했다.
14일 업계에 따르면 머스크는 X(옛 트위터)를 통해 "결론부터 말하자면 그록4 헤비는 2주 전부터 GPT-5보다 더 똑똑했고 지금 훨씬 더 좋아졌다"며 "코딩 분야에서 그록이 단연코 승리할 것"이라고 말했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
인류마지막시험 벤치마크 대결서 '그록4' 2.4%p 앞서

(서울=뉴스1) 김민석 기자 = 일론 머스크 xAI CEO가 자신의 '그록4 헤비'가 오픈AI의 'GPT-5'보다 성능이 더 뛰어나다고 주장했다.
'인류의 마지막 시험'(Humanity's Last Exam)이란 극난도 AI 벤치마크에서 그록4 헤비가 더 높은 점수를 받았다는 게 근거다. GPT-5 출시 직후 불거진 부정적 이슈를 부채질해 우위를 점하겠다는 의도로 풀이된다.

14일 업계에 따르면 머스크는 X(옛 트위터)를 통해 "결론부터 말하자면 그록4 헤비는 2주 전부터 GPT-5보다 더 똑똑했고 지금 훨씬 더 좋아졌다"며 "코딩 분야에서 그록이 단연코 승리할 것"이라고 말했다.
머스크는 또 "그록5는 올해 연말 이전에 나올 예정"이라며 "엄청나게 좋을 것"이라고 했다.
머스크의 자신감은 '인류의 마지막 시험'(Humanity's Last Exam·HLE) 벤치마크 결과에서 그록4 헤비가 44.4% 성적을 기록해 GPT-5 프로(42%)를 앞선 데서 나왔다.
HLE는 100개 이상 학문 분야의 2500개 박사급(PhD-level) 문제로 구성됐다. 로마 비문 번역부터 양자화학까지 단순 암기가 아닌 진정한 추론 능력을 평가한다.
극악의 난도로 '구글 제미나이 2.5 프로'도 26.9%에 그쳤다. 대부분 AI 모델은 30% 미만 성과를 보였다.

전문가들은 두 모델의 성능 차이를 두고 근본적으로 다른 아키텍처 접근법에서 비롯된 것으로 분석했다.
그록4 헤비는 여러 AI 에이전트를 병렬로 연계해 문제를 해결한 후 결과를 비교 검증하는 '멀티 에이전트 시스템'을 채택했다. 복잡한 추론 문제에서 높은 정확도를 보이지만 처리 속도가 초당 75토큰으로 상대적으로 느리다.
GPT-5는 빠른 응답과 깊은 추론을 하나의 통합 시스템에서 구현하는 단일 모델 아키텍처를 적용했다. 초당 150토큰 이상 처리 속도로 그록4보다 빠르지만, 극도로 복잡한 추론 문제에는 상대적으로 약할 수 있다.
비용효율 측면에선 GPT-5가 우위를 보인다. GPT-5는 일반 이용자도 플러스 요금제(월 20달러·약 2만 7000원)로 이용할 수 있지만, 그록4 헤비는 월 300달러(약 41만 원)를 내야 한다.
API 요금도 GPT-5가 입력 토큰 100만개당 1.25달러·출력 토큰 100만개당 10달러로 그록4(입력 3달러·출력 15달러) 대비 저렴하다.
한편 구글 카글(Google Kaggle)이 최근 주최한 AI 체스 토너먼트 결승에서는 오픈AI 'o3'가 '그록4'를 4-0으로 완승했다.
머스크는 "체스 성능은 큰 의미가 없다"며 "xAI는 체스 학습에는 거의 노력을 기울이지 않았다"고 했다.
ideaed@news1.kr
<용어설명>
■ 인류의 마지막 시험
인류의 마지막 시험(Humanitys Last Exam·HLE)은 세계 최고 수준의 난이도를 가진 인공지능(AI) 벤치마크로 2025년 1월 미국 AI 안전센터(Center for AI Safety· CAIS)와 스케일AI(Scale AI)가 공동 개발했다.
■ AI 에이전트
AI 에이전트는 환경과 상호작용하고 데이터를 수집·분석한 후 사전 설정한 목표를 달성하고자 필요한 작업을 스스로 결정하고 수행하는 자율 지능형 시스템이다.
■ API
API는 응용프로그램 인터페이스(Application Programming Interface)로 하나의 소프트웨어 컴포넌트가 다른 소프트웨어 컴포넌트와 상호작용할 수 있도록 설계된 인터페이스다. 즉, 소프트웨어끼리 서로 정보를 주고받고 기능을 사용하게 해주는 중간다리다.
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
- 친정서 7억 집 해줬는데 시댁에 100만씩 보내는 남편…시모 "며느리 눈치 왜 봐"
- "새댁, 남편이 바람피워요"…병원서 다른 간병인과 외도, 아내 충격
- "서유리 사채업자보다 집요해…스토킹 수준" 전 남편 최병길 PD 고통 호소
- 고소영 "'결혼 전 애 낳았다' 루머…치욕스러워, 다 고소했다"
- "나 좀 데려가 줘" 남편과 별거 중 초5 딸의 절박한 문자…데려올 수 있나
- 조문 후 가족여행이 죄?…"이러려고 왔냐, 소름" 동서가 SNS에 저격 '불쾌'
- 여성 운전자만 골라 바지 내리고 '노상방뇨'…춤까지 춘 '알코올 중독자'[영상]
- 고두심·김준현 태웠던 울산 유명 택시 기사, 여중생에게 "라면 먹고 갈래" 의혹
- 암 투병 아내 몰래 여직원과 두 집 살림…추궁하자 "잘 됐다, 이혼하자"
- "멍청하다고? 말도 알아듣는다!"…유모차 타고 산책하는 '애완 닭' 화제