AI도 진땀 흘린다는 '인류 마지막 시험'… 국내 모델 점수는?

세계 1000여 명 전문가 출제 참여
수학·물리학·인문학 2500개 문항
국산 모델 최고 점수는 LG '엑사원'
"고득점 의미 확대 해석 경계해야"

29일 국제학술지 '네이처'에 공개된 '인류의 마지막 시험'(HLE)의 문제들 중 하나. 묘비에서 발견된 로마 비문 일부를 번역하라는 의미다. HLE 홈페이지 캡처

인간이 만든 문제를 손쉽게 통과해온 첨단 인공지능(AI) 모델들 앞에 벽이 등장했다. 초고난도 벤치마크인 '인류의 마지막 시험'(HLE·Humanity's Last Exam)에서 어떤 모델도 고득점을 얻지 못한 것이다. 이 평가에서 국산 AI 모델은 중국의 '딥시크'보다 낮은 점수를 기록했다.

29일 국제학술지 '네이처'에 따르면 이번 HLE의 총 2,500개 문항은 수학, 물리학, 인문학 등 다양한 학문 분야에서 출제됐다. 객관식과 단답형으로 이뤄졌고, 단순 검색만으로는 빠르게 풀 수 없게 설계됐다. 출제에는 세계 500개 기관과 1,000여 명의 전문가가 참여했으며, 이 중엔 국내 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO)와 김대현 연세대 첨단컴퓨팅학부 교수도 있다.

수학 문제가 41%로 가장 많았다. 묘비에서 발견된 로마 비문 일부를 해석하거나 벌새의 뼈 구조를 묻는 등 전문가 수준의 지식을 요구하는 문제도 포함됐다. 출제진은 고성능 AI도 풀지 못했던 문제를 선별해 최종 문항으로 선정했다고 밝혔다. 지난해 1월 미국 비영리단체 AI안전센터와 스타트업 스케일AI가 문제들을 공개했는데, 1년 만에 공식 논문으로 발표된 것이다.

첨단 AI 모델들은 모두 낮은 성적을 냈다. 가장 높은 점수를 기록한 구글의 '제미나이 3 프로'는 정확도 38.3%를 보였고, 오픈AI의 'GPT-5.2'(29.9%), 앤트로픽의 '오푸스4.5'(25.8%), 중국의 '딥시크 3.2'(21.8%)가 그 뒤를 이었다. 국내 모델들은 그보다 낮은 성적을 받았다. 텍스트 문항만을 대상으로 한 평가에서 LG AI연구원의 '엑사원'은 13.6점, 업스테이지 '솔라 오픈'은 10.5점, SK텔레콤의 '에이닷 엑스 케이원'은 7.6점을 기록했다.

다만 출제진은 HLE의 의미를 필요 이상으로 확대 해석하는 것은 경계했다. 이 평가에서 높은 점수를 받더라도 특정 학술 분야에 대한 전문 지식과 추론 능력이 향상된 것일 뿐, 인간처럼 새 연구를 주도하거나 범용 AI에 도달했다는 의미는 아니라는 설명이다. 출제진은 "HLE는 구조화한 문제를 평가하는 시험"이라면서 "폐쇄형 벤치마크 한계를 확장해 보다 역동적인 AI 역량에 초점을 둔 새로운 벤치마크로 거듭나는 게 목표"라고 밝혔다.

김태연 기자 tykim@hankookilbo.com

한국일보

경제

AI도 진땀 흘린다는 '인류 마지막 시험'… 국내 모델 점수는?