AI도 쩔쩔맨 ‘인류 마지막 시험’ 공개… 한국인도 출제

전혜진 기자 2026. 1. 30. 00:32
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

29일 국제학술지 네이처에 따르면 HLE는 수학·과학·인문학 등 100여 개 학문 분야 2500문항으로 구성됐다.

전 세계 50개국 1000여 명의 전문가가 문제를 출제했다.

국내에선 AI스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 첨단컴퓨팅학부 교수 등 6명이 이름을 올렸다.

HLE는 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 처음 공개한 프로젝트로 약 1년간의 검증을 거쳐 공식 논문으로 발표됐다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

50개국 1000여명이 2500문항 내
수학-인문학 등 100개 분야 망라
제미나이 38.3%-GPT 29.9% 맞혀

전 세계 주요 인공지능(AI) 모델들조차 쉽게 풀지 못해 이들의 성능을 판단하는 데 활용되는 초고난도 벤치마크(AI 성능 비교 시험) ‘인류의 마지막 시험(Humanity‘s Last Exam·HLE)’ 내용이 공개됐다.

29일 국제학술지 네이처에 따르면 HLE는 수학·과학·인문학 등 100여 개 학문 분야 2500문항으로 구성됐다. 전 세계 50개국 1000여 명의 전문가가 문제를 출제했다. 국내에선 AI스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 첨단컴퓨팅학부 교수 등 6명이 이름을 올렸다.

HLE는 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 처음 공개한 프로젝트로 약 1년간의 검증을 거쳐 공식 논문으로 발표됐다. 시험 문항은 수학부터 인문학까지 100여 개 세부 분야를 망라한다. 전체 문항 중 수학 비중이 41%로 가장 높다. 묘비에서 발견된 로마 비문 일부를 번역하거나, 벌새의 뼈 구조를 묻는 등 분야별 전문성을 요구하는 문제도 다수 출제됐다.

AI들의 성적은 낮은 수준에 머물러 있다. CAIS가 공개한 평가 결과에 따르면 구글 ‘제미나이 3 프로’가 정확도 38.3%로 가장 높은 점수를 기록했다. 오픈AI의 GPT-5.2는 29.9%, 오푸스 4.5는 25.8%, 딥시크 3.2는 21.8%에 그쳤다. 국내 AI 모델도 힘을 쓰지 못했다. 텍스트 문항만을 대상으로 한 평가에서 LG AI연구원의 ‘엑사원(EXAONE)’은 13.6%, 업스테이지의 ‘솔라 오픈’은 10.5%, SK텔레콤의 ‘A.X K1’은 7.6%를 기록했다.

전혜진 기자 sunrise@donga.com

Copyright © 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지