수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개

수학자들이 직접 만든 초고난도 수학 문제로 인공지능(AI)의 추론 능력을 검증하는 새로운 벤치마크가 등장했다. 실제 연구 수준 수학 문제를 기반으로 차세대 거대언어모델(LLM)의 한계를 측정하겠다는 취지다.

25일 업계에 따르면 최근 논문 사전 게재 사이트인 아카이브(arXiv)에는 'LLM의 연구급 수학 추론 능력 평가를 위한 수학자 주도 벤치마크 'Soohak' 논문이 공개됐다.

벤치마크는 서울대학교와 한국과학기술원(KAIST) 등 국내 주요 대학과 카네기멜론대, 엘루서AI 등 연구진으로 구성된 수학자 64명이 제작한 총 439개 문제로 구성됐다. 교수, 박사과정생과 박사후연구원, 국제수학올림피아드(IMO) 메달리스트로 구성된 팀이 문제를 직접 새로운 문제를 출제해 데이터 오염 가능성을 줄였다고 연구진은 설명했다.

Soohak 벤치마크는 크게 두 개의 하위 평가 세트(서브셋)로 구성된다. '챌린지 서브셋'은 실제 연구 수준의 340개 고난도 수학 문제들로 구성돼 AI의 추론과 창의적 문제 해결 능력을 평가한다. '리퓨절 서브셋'은 애초에 모순이 있거나 해답이 존재하지 않는 문제 99개로 구성돼 AI가 무리하게 답을 지어내지 않고 “답할 수 없다”고 적절히 거부할 수 있는지를 검증한다.

평가 결과 오픈AI의 GPT 계열과 구글 제미나이, 앤트로픽 클로드 등 최신 모델들도 전체 문제에서 높은 정답률을 기록하지 못한 것으로 나타났다. 구글의 제미나이3 프로가 챌린지 서브셋에서 30.4%로 가장 높은 점수를 기록했고, 오픈AI GPT-5는 26.4%, 앤트로픽 클로드 오퍼-4.5는 10.4%를 기록했다. 오픈소스 모델 가운데서는 큐웬3-235B와 GPT-OSS-120B, 키미-K2.5 등이 모두 15% 이하에 머물렀다.

또 문제 자체가 성립하지 않을 경우 “답할 수 없다”고 판단하는 거부 능력 평가에서는 어떤 모델도 50%를 넘지 못했다.

기존 수학 벤치마크에서 높은 성능을 보였던 최신 모델들도 연구 수준 문제에서는 정답률이 크게 낮아진 것은 AI가 창의적이고 장기적인 추론이 필요한 연구급 수학에서는 여전히 한계를 드러내는 것으로 해석된다.

논문은 “최근 최첨단 LLM 모델들이 IMO에서 금메달급 성적을 거두면서 수학계는 LLM 추론 능력을 측정할 수 있는 의미 있고 도전적인 목표를 모색하고 있다”면서 “올림피아드 스타일의 문제는 단계별 추론 능력만을 측정하는 반면, 연구 수준의 문제는 그러한 추론 능력을 활용해 수학적 지식의 최전선을 확장하는 데 기여할 수 있어 새로운 대안으로 떠오르고 있다”고 소개했다.

정현정 기자 iam@etnews.com

전자신문

IT/과학

수학자 64명이 직접 만든 '연구급 수학' AI 벤치마크 공개