AI도 진땀 흘린다는 '인류 마지막 시험'… 국내 모델 점수는?
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인간이 만든 문제를 손쉽게 통과해온 첨단 인공지능(AI) 모델들 앞에 벽이 등장했다.
출제진은 고성능 AI도 풀지 못했던 문제를 선별해 최종 문항으로 선정했다고 밝혔다.
출제진은 "HLE는 구조화한 문제를 평가하는 시험"이라면서 "폐쇄형 벤치마크 한계를 확장해 보다 역동적인 AI 역량에 초점을 둔 새로운 벤치마크로 거듭나는 게 목표"라고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
수학·물리학·인문학 2500개 문항
국산 모델 최고 점수는 LG '엑사원'
"고득점 의미 확대 해석 경계해야"

인간이 만든 문제를 손쉽게 통과해온 첨단 인공지능(AI) 모델들 앞에 벽이 등장했다. 초고난도 벤치마크인 '인류의 마지막 시험'(HLE·Humanity's Last Exam)에서 어떤 모델도 고득점을 얻지 못한 것이다. 이 평가에서 국산 AI 모델은 중국의 '딥시크'보다 낮은 점수를 기록했다.
29일 국제학술지 '네이처'에 따르면 이번 HLE의 총 2,500개 문항은 수학, 물리학, 인문학 등 다양한 학문 분야에서 출제됐다. 객관식과 단답형으로 이뤄졌고, 단순 검색만으로는 빠르게 풀 수 없게 설계됐다. 출제에는 세계 500개 기관과 1,000여 명의 전문가가 참여했으며, 이 중엔 국내 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO)와 김대현 연세대 첨단컴퓨팅학부 교수도 있다.
수학 문제가 41%로 가장 많았다. 묘비에서 발견된 로마 비문 일부를 해석하거나 벌새의 뼈 구조를 묻는 등 전문가 수준의 지식을 요구하는 문제도 포함됐다. 출제진은 고성능 AI도 풀지 못했던 문제를 선별해 최종 문항으로 선정했다고 밝혔다. 지난해 1월 미국 비영리단체 AI안전센터와 스타트업 스케일AI가 문제들을 공개했는데, 1년 만에 공식 논문으로 발표된 것이다.
첨단 AI 모델들은 모두 낮은 성적을 냈다. 가장 높은 점수를 기록한 구글의 '제미나이 3 프로'는 정확도 38.3%를 보였고, 오픈AI의 'GPT-5.2'(29.9%), 앤트로픽의 '오푸스4.5'(25.8%), 중국의 '딥시크 3.2'(21.8%)가 그 뒤를 이었다. 국내 모델들은 그보다 낮은 성적을 받았다. 텍스트 문항만을 대상으로 한 평가에서 LG AI연구원의 '엑사원'은 13.6점, 업스테이지 '솔라 오픈'은 10.5점, SK텔레콤의 '에이닷 엑스 케이원'은 7.6점을 기록했다.
다만 출제진은 HLE의 의미를 필요 이상으로 확대 해석하는 것은 경계했다. 이 평가에서 높은 점수를 받더라도 특정 학술 분야에 대한 전문 지식과 추론 능력이 향상된 것일 뿐, 인간처럼 새 연구를 주도하거나 범용 AI에 도달했다는 의미는 아니라는 설명이다. 출제진은 "HLE는 구조화한 문제를 평가하는 시험"이라면서 "폐쇄형 벤치마크 한계를 확장해 보다 역동적인 AI 역량에 초점을 둔 새로운 벤치마크로 거듭나는 게 목표"라고 밝혔다.
김태연 기자 tykim@hankookilbo.com
Copyright © 한국일보. 무단전재 및 재배포 금지.
- 90세 정신과 의사가 첫 며느리 맞자마자 시킨 교육은?...이근후 박사의 '재미있게 늙는 법'-사회ㅣ
- 여자친구 살해하고 1년간 김치냉장고에 숨긴 40대, 징역 30년-사회ㅣ한국일보
- 이해찬의 '맏상주'는 누구... 김민석·정청래 "차기 당권 경쟁 서막 올랐다"-정치ㅣ한국일보
- "부정선거 음모론, 100대 1로 토론하자"… 이준석의 공개 제안-정치ㅣ한국일보
- 허영만, "'타짜' 수익 100억 원 주식으로 날려" 루머에 입 열었다-문화ㅣ한국일보
- "로봇이 24시간 밤낮없이 일해" 현대차 노조, 이번엔 '무인공장' 질타-사회ㅣ한국일보
- 홍준표 "김건희, '방조범 처벌' 가능한데 굳이 무죄? 참 난해한 선고"-사회ㅣ한국일보
- '30여년 정치 악연' 김종인도 조문 "옛날부터 잘 아는 분… 너무 빨리 돌아가셨다"-정치ㅣ한국일
- 김건희 1심 재판장, 우인성은 누구... "권력 있든 없었든 법 적용 같아야"-사회ㅣ한국일보
- 월 500만 원… 버스기사 모집에 2030 몰린다-사회ㅣ한국일보