챗GPT가 달라졌다 … 수능국어 8등급서 올해는 1등급
국어영역 1문제 틀린 97점
여러개 지문 비교문항도 척척
더많은 시간 생각하도록 훈련
6개문항 푸는데 1분10초 걸려
"언어능력 곧 인간 능가할것"
인공지능(AI) 추론 능력이 날로 개선되면서 대학수학능력시험에서 국어 영역 1등급을 받는 수준까지 올라섰다. 19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 '수능 국어 LLM 리더보드'에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025학년도 수능 국어 영역에서 원점수 97점으로 1등급권에 안착했다. 올해 수능 국어 영역에서 단 한 문제만 틀리고 모두 맞힌 셈이다. 선택 과목은 '화법과 작문'으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.
복잡한 추론이 필요한 수능 국어에서 기존 AI는 3~9등급 사이 점수를 받으며 고전해 왔는데, 최근 AI의 추론 능력이 비약적으로 발전하면서 o1-프리뷰 모델이 고득점 획득에 성공한 것이다. 챗GPT 기존 모델인 GPT-4o (2024년 5월 출시)모델은 2023~2024학년도 수능에서 모두 중위권 학생 수준인 4등급을 기록했다.
이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다. 마커AI 소속 개발자는 블로그를 통해 "2025학년도 수능에서 기록한 97점이라는 점수는 LLM의 한국어 능력이 인간을 뛰어넘을 시기가 머지않았음을 보여준다"고 평했다.
2025학년도 수능 국어 문제 중 일부를 이전 모델인 GPT-4o와 새로운 모델인 o1-프리뷰에 넣고 성능을 직접 비교해봤다.
서양 과학 및 기술 수용에 관한 다양한 관점을 다룬 비문학 지문을 두고 학자들의 엇갈린 반응을 살펴보는 7번 문제의 경우 최신 모델인 o1-프리뷰는 맞혔지만, GPT-4o는 오답을 냈다.
두 모델에 지문을 맡기자 o1-프리뷰는 '서양 과학의 유입' '역사적 변화' '서양 과학을 받아들이다' 등 스스로 주요 키워드를 뽑아가며 지문을 먼저 해석한 후 답변을 도출했다. GPT-4o는 이러한 과정을 건너뛰고 바로 답변을 도출했는데, 같은 묶음의 다른 문제들은 맞혔지만 지문을 비교해야 하는 문제에는 어려움을 겪은 것으로 보인다.
문학 영역 26번도 o1-프리뷰만 정답을 도출한 문제다. 이 문제는 장석남 '배를 밀며', 허수경 '혼자 가는 먼 집', 이광호 '이젠 되도록 편지 안 드리겠습니다'가 지문으로 나왔다. 주어진 지문 여러 개를 모두 읽고 비교·분석해야 하는 문제로, 유형 자체는 7번과 유사하다. 국어 교사 출신인 이만기 유웨이 교육평가연구소장은 "7번과 26번 모두 주어진 지문에서 두 군데를 표시해두고 정확히 이해했는지를 서로 비교하며 물어보는 비슷한 유형"이라며 "전반적으로 읽고 분석해야 하는 정보의 양이 많은 문제로 지문을 세부적으로 이해하는 데 어려움을 겪을 수 있다"고 평가했다.
모의고사 출제 경험이 많은 김현진 종로학원 국어 책임연구원 역시 정보량이 많은 문제라는 의견에 동의했다. 그는 "지문 분량이 길거나 지엽적인 부분을 찾아봐야 해서 문제를 푸는 데 시간이 걸릴 수 있다"고 말했다.
비교 모델인 GPT-4o 또한 올해 출시된 모델이지만, 이처럼 큰 격차를 보인 것은 o1-프리뷰 모델이 단계적인 사고 과정을 통해 복잡한 문제를 해결하는 데 특화돼 있기 때문이다. 따라서 복잡한 수능 지문을 읽고 이에 딸린 3~5개의 문제를 빈틈없이 풀어낼 수 있었던 것이다.
다만 답변을 제공하기까지 걸리는 시간은 o1-프리뷰 모델이 더 길었다. (가)~(다)의 지문을 읽고 22번부터 27번까지 총 6개의 문제를 풀어야 하는 과제를 주자 약 1분10초의 시간이 걸리기도 했다.
오픈AI는 o1-프리뷰 모델 출시 당시 "사람처럼 문제를 해결하기 전에 더 많은 시간을 생각하도록 훈련시켰다"고 설명했다. 시간을 더 많이 들이되 추론 과정을 꼼꼼히 하는 데에 주안점을 뒀다는 설명이다. 물론 실제 사람이 푸는 속도보다는 훨씬 빠르다.
한 AI 개발자는 이번 챗GPT의 수능 결과에 대해 "GPT 성능이 많이 좋아진 것을 체감하고 있는데, 이를 수치로 확인하니 흥미롭다"며 "다만 o1 모델은 추론 속도가 느리고 비용이 높아 대규모 작업에는 적합하지 않을 것"이라고 말했다.
[정호준 기자 / 이용익 기자]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “박나래·기안84 툭하면 음주, 터질게 터졌다”...‘나혼산’ 법정제재 - 매일경제
- 지방세 안 낸 개그맨·가수 누굴까…체납 징수 - 매일경제
- “전기료도 못 냈는데 지금은 주말 대기 70팀”…한국서 외면받던 이 요리, 어떻게 바꿨길래 - 매
- 10년전 1억으로 아파트·삼전·애플 대신 ‘비트코인’, 294억 됐는데 - 매일경제
- ‘자사주 매입’ 훈풍 하루 만에 끝나나…삼성전자 목표가도 하향 왜? - 매일경제
- [단독] “여기 스타벅스 맞아?”…온통 예술작품으로 꾸몄다는 이 매장, 어디길래 - 매일경제
- [단독] “현대차에 손 내민 GM”…美서 맞춤 픽업트럭 만든다는데 - 매일경제
- “월 500만원씩 따박따박, 이게 효자야”…우리나라 연금부자 이 정도로 많았나 - 매일경제
- 수의 입고 등장한 유아인…“재판 중 부친상, 더 큰 벌 있나” 호소 - 매일경제
- ML 스카우트 앞에서 만루포→4할 10타점 괴력…충격의 예선 탈락, 韓 슈퍼스타 이 악물었다 “성