"딱 1개 틀렸다" 챗GPT가 풀어본 2025년도 수능 국어
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI)의 등장 이후 인간의 사고 능력을 평가하는 각종 시험에서 AI 챗봇이 줄줄이 고득점을 받는 가운데, 올해 대학수학능력시험 국어영역에서 AI가 만점에 가까운 점수를 받았다.
그동안 복잡한 추론이 필요한 수능 국어에서 AI는 3~9등급 사이 점수를 받았는데 1년 새 AI의 추론 능력이 비약적으로 발전한 것이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
GPT3.5는 8등급, GPT4는 4등급 받았지만...
Markr AI "LLM 한국어 능력 인간 뛰어넘을 것"
[이데일리 김혜선 기자] 인공지능(AI)의 등장 이후 인간의 사고 능력을 평가하는 각종 시험에서 AI 챗봇이 줄줄이 고득점을 받는 가운데, 올해 대학수학능력시험 국어영역에서 AI가 만점에 가까운 점수를 받았다. 그동안 복잡한 추론이 필요한 수능 국어에서 AI는 3~9등급 사이 점수를 받았는데 1년 새 AI의 추론 능력이 비약적으로 발전한 것이다.

가장 높은 점수를 받은 모델은 오픈AI의 최신 모델인 o1 프리뷰로 원점수 97점을 받아 추정 등급컷 1등급(18일 기준)을 기록했다. 올해 수능 국어 영역에서 단 1문제만 틀리고 모두 맞힌 셈이다. o1 미니와 GPT4o는 각 78점, 75점을 받아 추정 등급컷 4등급이고, GPT4o 미니는 5등급(원점수 59점), GPT3.5 터보는 8등급(원점수 16점)으로 추정된다.
특히 최신 모델인 o1 프리뷰의 성능 개선이 눈에 띈다. o1 프리뷰는 지난해 수능 국어영역에서도 원점수 88점을 맞아 1등급을 확보했다. GPT4o의 경우 지난해 수능 국어에서 원점수 65점으로 4등급을 받았다. 메타와 구글 등의 생성형 AI들도 최근 10개년 수능 국어영역에서 3등급~9등급 사이를 받았다.
수능 LLM 리더보드를 개발한 Markr AI 연구원 진민성씨는 자신의 블로그에 “이전 수능 국어 10개년 LLM(거대언어모델, Large Language Model) 리더보드에서 성능 비교 결과, 1위를 차지한 gpt-4o가 평균등급 3등급대에 최고 점수는 86점을 차지했다”며 “2025 수능에서 기록한 97점이라는 만점에 가까운 점수는, LLM의 한국어 언어능력이 인간의 퍼모먼스를 뛰어넘을 시기가 머지 않았음을 보여준다”고 부연했다.
한편, 오픈AI가 지난 9월 공개한 최신 모델 ‘O1(오원)’은 인간의 추론 능력에 초점을 두고 개발해온 모델로, 단계적인 사고 과정을 통해 어려운 문제를 해결한다. 오픈AI는 이 모델이 국제수학올림피아드(IMO) 예선 시험에서 이전 모델 정답률이 13%인 데 비해 83%의 정답률을 기록했다고 설명했다.
오픈AI 최고경영자(CEO) 샘 올트먼은 이 모델을 “새로운 패러다임”이라며 “범용의 복잡한 문제를 추론할 수 있는 AI”라고 말했다. 다만 “이 기술이 여전히 결함이 있고, 제한적”이라고 설명했다.
김혜선 (hyeseon@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- 영화 '공공의적' 모티브된 최악의 존속살해[그해 오늘]
- ‘4분의 기적' 버스서 심정지로 고꾸라진 男, 대학생들이 살렸다
- "술만 마시면 돌변..폭력 남편 피해 아이들과 도망친 게 범죄인가요"
- "임영웅과 얘기하는 꿈꿔"...20억 복권 당첨으로 고민 해결
- '공룡 美남' 돌아온 김우빈, 황금비율 시계는[누구템]
- 경찰, 오늘 '마약 투약 혐의' 유아인에 구속영장 신청
- 2차전지 미련 못 버리는 개미군단 '포퓨'로 진격…포스코그룹株 주가는 글쎄
- '최고 158km' 안우진, 6이닝 2실점 역투...키움, 3연패 탈출
- 보증금, 집주인 아닌 제3기관에 묶는다고…뿔난 임대인들
- 상간소송 당하자 성관계 영상 유포하겠다 협박한 20대 여성[사랑과전쟁]