국내 AI 수능 풀게 했더니..."NC소프트 모델 2점, 대부분 20점대"

국내 '국가대표 인공지능(AI)'에 도전하는 한국 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 AI 모델에 크게 뒤처진다는 분석 결과가 나왔습니다.
김종락 서강대 수학과 교수 연구팀은 국내 AI 5개 모델과 해외 5개 모델에 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 오늘(15일) 공개했습니다.
한국 모델로는 ▲업스테이지의 '솔라 프로-2', ▲LG AI연구원의 '엑사원 4.0.1' ▲네이버의 'HCX-007', ▲SK텔레콤의 'A.X 4.0(72B)', ▲ 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'를 활용했습니다.
해외 모델에는 ▲GPT-5.1, ▲제미니 3 프로 프리뷰, ▲클라우드 오푸스 4.5, ▲그록 4.1 패스트, ▲딥시크 V3.2 등이 활용됐습니다.

평가 결과, 해외 모델들은 76~92점을 기록한 반면, 국내 모델은 업스테이지의 '솔라 프로-2'만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 엔씨(NC)소프트의 '라마 바르코 8B 인스트럭트'는 2점으로 최저 점수를 기록했습니다.
연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 풀지 못해 파이썬 툴을 활용하도록 했음에도 해외 프런티어 모델과 큰 격차를 보였다고 설명했습니다. 김 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 선도 모델에 비해 상당히 뒤처져 있음을 확인했다"고 전했습니다.
연구팀은 향후 국가대표 AI 신규 버전이 공개되면 추가 성능 평가를 진행할 계획입니다.
JIBS 제주방송 신동원 (dongwon@jibs.co.kr) 기자
Copyright © JIBS. 무단전재 및 재배포 금지.