국내 AI 수능 풀게 했더니..."NC소프트 모델 2점, 대부분 20점대"

제주방송 신동원 2025. 12. 15. 07:45
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

해외 모델과 큰 격차


국내 '국가대표 인공지능(AI)'에 도전하는 한국 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 AI 모델에 크게 뒤처진다는 분석 결과가 나왔습니다.

김종락 서강대 수학과 교수 연구팀은 국내 AI 5개 모델과 해외 5개 모델에 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 오늘(15일) 공개했습니다.

한국 모델로는 ▲업스테이지의 '솔라 프로-2', ▲LG AI연구원의 '엑사원 4.0.1' ▲네이버의 'HCX-007', ▲SK텔레콤의 'A.X 4.0(72B)', ▲ 엔씨소프트의 경량모델 '라마 바르코 8B 인스트럭트'를 활용했습니다.

해외 모델에는 ▲GPT-5.1, ▲제미니 3 프로 프리뷰, ▲클라우드 오푸스 4.5, ▲그록 4.1 패스트, ▲딥시크 V3.2 등이 활용됐습니다.

평가 결과, 해외 모델들은 76~92점을 기록한 반면, 국내 모델은 업스테이지의 '솔라 프로-2'만 58점을 받았고 나머지는 대부분 20점대에 머물렀습니다. 엔씨(NC)소프트의 '라마 바르코 8B 인스트럭트'는 2점으로 최저 점수를 기록했습니다.

연구팀은 국내 모델들이 단순 추론으로 문제를 대부분 풀지 못해 파이썬 툴을 활용하도록 했음에도 해외 프런티어 모델과 큰 격차를 보였다고 설명했습니다. 김 교수는 "국내 소버린 AI 모델의 수학적 추론 능력이 해외 선도 모델에 비해 상당히 뒤처져 있음을 확인했다"고 전했습니다.

연구팀은 향후 국가대표 AI 신규 버전이 공개되면 추가 성능 평가를 진행할 계획입니다.

JIBS 제주방송 신동원 (dongwon@jibs.co.kr) 기자

Copyright © JIBS. 무단전재 및 재배포 금지.