한국인도 같이 출제한 “세상에서 가장 어려운 시험문제”…AI가 풀어보니
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
전 세계 학자들이 모여 초고난도 시험 문제를 출제했다.
이 시험 문제는 인공지능(AI) 성능을 비교하기 위함이다.
최근AI성능이 빠르게 발전하며 기존 성능 평가 기준은 변별력을 잃어가고 있다.
출제자들이 문제를 낼 당시 최고 성능 AI도 풀지 못한 문제들을 선별해 HLE 시험을 만들었다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
시험 문제 출제에 'KAIST', '연세대' 연구진 등 참여

전 세계 학자들이 모여 초고난도 시험 문제를 출제했다. 이 시험 문제는 인공지능(AI) 성능을 비교하기 위함이다. 출제진에 한국인도 몇몇 포함된 것으로 알려졌다.
28일 국제 학술지 ‘네이처’에 전 세계 학자들이 만든 ‘인류의 마지막 시험’(Humanity’s Last Exam·HLE)이 공개됐다. 50개국 500개 기관 교수와 연구자, 약 1000명의 전문가가 모여 총 2500문항을 출제했다.
이번 출제에 한국인 연구진도 참여했다. AI스타트업 ‘에임인텔리전스’ 박하언 최고기술책임자(CTO), 김대현 연세대 교수 등이 참여했다. 한국과학기술원(KAIST)와 한국기술교육대 등의 국내 연구원들도 함께했다.
미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 HLE 프로젝트를 처음 공개했다. 1년 간 검증기간을 거쳐 28일 공식 논문으로 발표했다.
최근AI성능이 빠르게 발전하며 기존 성능 평가 기준은 변별력을 잃어가고 있다. 이를 보완할 새로운 기준을 마련하기 위해 기획된 프로젝트로 전해진다.

HLE 시험 문항은 수학부터 인문학까지 약 100개 세부 분야를 포함한다. 글과 그림을 함께 해석해야 풀 수 있는 문제도 있다.
수학 문제가 전체 41%로 가장 많다. 로마 시대 비석에 새겨진 문자를 해석하거나 특정 동물 뼈 구조를 묻는 문제들도 있다. 이는 모두 인간 전문가 수준 이상의 지식을 요구하는 문제들이다.
출제자들이 문제를 낼 당시 최고 성능 AI도 풀지 못한 문제들을 선별해 HLE 시험을 만들었다.
최신 AI 모델들 중 구글 ’제미나이 3 프로’가 이 시험에서 38.3점으로 가장 높은 점수를 받았다. 오픈AI ChatGPT-5.2가 29.9점, 오푸스 4.5가 25.8점, 그리고 딥시크 3.2가 21.8점으로 뒤를 이었다.
국내 AI 모델들은 더 개발이 필요해 보인다. 텍스트 문항만 가지고 한 평가에서 LG AI연구원의 ‘엑사원’이 13.6점, 업스테이지 ‘솔라 오픈’이 10.5점, SK텔레콤 ‘에이닷XK1’이 7.5점을 받았다.
박정원 인턴 기자 jason201477@hankyung.com
Copyright © 한경비즈니스. 무단전재 및 재배포 금지.
- 작년 미국 전기차 줄고, 하이브리드차 늘었다...IRA 종료가 타격
- 함영주 하나금융 회장, 8년 재판 종지부…회장직 유지
- “더 갈까” 모건스탠리 올해 코스피 전망 들어보니
- [속보] 국민 둘 중 한 명 "한동훈 제명해야"
- '99원 생리대' 선보인 쿠팡, 최저가 수준 상품 보급 확대
- [속보]삼성전자 '노·노 갈등' 현실화하나...DX부문 노조, 공동대응 철회
- 한국서 ‘떼돈’ 벌었다...결국 승자는 ‘외국인’
- 사모펀드·삼성전자 성과급, ‘지속가능성’ 시험대 올라
- 메모리 가격 10배 뛰자 애플도 백기…반도체 랠리 둘러싼 4가지 질문[삼전닉스 신드롬]
- “부담 없는 투자”…증권사, ‘제로 수수료’ 경쟁 치열