AI도 쩔쩔맨 ‘인류 마지막 시험’ 공개… 한국인도 출제
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
29일 국제학술지 네이처에 따르면 HLE는 수학·과학·인문학 등 100여 개 학문 분야 2500문항으로 구성됐다.
전 세계 50개국 1000여 명의 전문가가 문제를 출제했다.
국내에선 AI스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 첨단컴퓨팅학부 교수 등 6명이 이름을 올렸다.
HLE는 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 처음 공개한 프로젝트로 약 1년간의 검증을 거쳐 공식 논문으로 발표됐다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
수학-인문학 등 100개 분야 망라
제미나이 38.3%-GPT 29.9% 맞혀
전 세계 주요 인공지능(AI) 모델들조차 쉽게 풀지 못해 이들의 성능을 판단하는 데 활용되는 초고난도 벤치마크(AI 성능 비교 시험) ‘인류의 마지막 시험(Humanity‘s Last Exam·HLE)’ 내용이 공개됐다.
29일 국제학술지 네이처에 따르면 HLE는 수학·과학·인문학 등 100여 개 학문 분야 2500문항으로 구성됐다. 전 세계 50개국 1000여 명의 전문가가 문제를 출제했다. 국내에선 AI스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO), 김대현 연세대 첨단컴퓨팅학부 교수 등 6명이 이름을 올렸다.
HLE는 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 지난해 1월 처음 공개한 프로젝트로 약 1년간의 검증을 거쳐 공식 논문으로 발표됐다. 시험 문항은 수학부터 인문학까지 100여 개 세부 분야를 망라한다. 전체 문항 중 수학 비중이 41%로 가장 높다. 묘비에서 발견된 로마 비문 일부를 번역하거나, 벌새의 뼈 구조를 묻는 등 분야별 전문성을 요구하는 문제도 다수 출제됐다.
AI들의 성적은 낮은 수준에 머물러 있다. CAIS가 공개한 평가 결과에 따르면 구글 ‘제미나이 3 프로’가 정확도 38.3%로 가장 높은 점수를 기록했다. 오픈AI의 GPT-5.2는 29.9%, 오푸스 4.5는 25.8%, 딥시크 3.2는 21.8%에 그쳤다. 국내 AI 모델도 힘을 쓰지 못했다. 텍스트 문항만을 대상으로 한 평가에서 LG AI연구원의 ‘엑사원(EXAONE)’은 13.6%, 업스테이지의 ‘솔라 오픈’은 10.5%, SK텔레콤의 ‘A.X K1’은 7.6%를 기록했다.
전혜진 기자 sunrise@donga.com
Copyright © 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
- 李, 로봇 도입 반대한 현대차노조 겨냥 “거대한 수레 피할수 없다”
- 한동훈 다음 스텝은…➀법적 대응 ➁무소속 출마 ➂신당 창당
- “밀약 여부 밝혀야”…與의원에 보낸 국무위원 ‘합당 메시지’ 포착
- K방산 또 해냈다…한화, 노르웨이에 ‘천무’ 1조원 규모 수출
- 워싱턴 ‘이건희 컬렉션’에 러트닉 등 거물 집결…민간외교 꽃피워
- 슈카 “코스피 5000 공약 조롱한 적 없어…짜깁기 영상”
- “구준엽, 故서희원 조각상 직접 제작해 내주 제막식”
- [사설]장동혁, 한동훈 제명… 공멸 아니면 자멸의 길
- [사설]“수도권에 6만 채 공급”… 국토부-지자체 이견 해소부터
- [사설]李 한마디에 미뤄둔 법안 91건 하루 만에 처리… 여태 뭐 하다