한국인도 같이 출제한 “세상에서 가장 어려운 시험문제”…AI가 풀어보니

'인류의 마지막 시험'(Humanity's Last Exam), 8개 영역·100개 세부분야
시험 문제 출제에 'KAIST', '연세대' 연구진 등 참여

전 세계 학자들이 모여 초고난도 시험 문제를 출제했다. 이 시험 문제는 인공지능(AI) 성능을 비교하기 위함이다. 출제진에 한국인도 몇몇 포함된 것으로 알려졌다.

28일 국제 학술지 ‘네이처’에 전 세계 학자들이 만든 ‘인류의 마지막 시험’(Humanity’s Last Exam·HLE)이 공개됐다. 50개국 500개 기관 교수와 연구자, 약 1000명의 전문가가 모여 총 2500문항을 출제했다.

이번 출제에 한국인 연구진도 참여했다. AI스타트업 ‘에임인텔리전스’ 박하언 최고기술책임자(CTO), 김대현 연세대 교수 등이 참여했다. 한국과학기술원(KAIST)와 한국기술교육대 등의 국내 연구원들도 함께했다.

미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 HLE 프로젝트를 처음 공개했다. 1년 간 검증기간을 거쳐 28일 공식 논문으로 발표했다.

최근AI성능이 빠르게 발전하며 기존 성능 평가 기준은 변별력을 잃어가고 있다. 이를 보완할 새로운 기준을 마련하기 위해 기획된 프로젝트로 전해진다.

HLE는 100가지 영역에 걸쳐 2500문항으로 구성돼 있다. 100가지 영역은 크게 8가지 카테고리로 분류된다. / 네이처

HLE 시험 문항은 수학부터 인문학까지 약 100개 세부 분야를 포함한다. 글과 그림을 함께 해석해야 풀 수 있는 문제도 있다.

수학 문제가 전체 41%로 가장 많다. 로마 시대 비석에 새겨진 문자를 해석하거나 특정 동물 뼈 구조를 묻는 문제들도 있다. 이는 모두 인간 전문가 수준 이상의 지식을 요구하는 문제들이다.
출제자들이 문제를 낼 당시 최고 성능 AI도 풀지 못한 문제들을 선별해 HLE 시험을 만들었다.

최신 AI 모델들 중 구글 ’제미나이 3 프로’가 이 시험에서 38.3점으로 가장 높은 점수를 받았다. 오픈AI ChatGPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 그리고 딥시크 3.2가 21.8점으로 뒤를 이었다.

국내 AI 모델들은 더 개발이 필요해 보인다. 텍스트 문항만 가지고 한 평가에서 LG AI연구원의 ‘엑사원’이 13.6점, 업스테이지 ‘솔라 오픈’이 10.5점, SK텔레콤 ‘에이닷XK1’이 7.5점을 받았다.

박정원 인턴 기자 jason201477@hankyung.com

한경비즈니스

경제

한국인도 같이 출제한 “세상에서 가장 어려운 시험문제”…AI가 풀어보니