챗GPT가 달라졌다 … 수능국어 8등급서 올해는 1등급

오픈AI 최신모델 'o1프리뷰'
국어영역 1문제 틀린 97점
여러개 지문 비교문항도 척척
더많은 시간 생각하도록 훈련
6개문항 푸는데 1분10초 걸려
"언어능력 곧 인간 능가할것"

인공지능(AI) 추론 능력이 날로 개선되면서 대학수학능력시험에서 국어 영역 1등급을 받는 수준까지 올라섰다. 19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 '수능 국어 LLM 리더보드'에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025학년도 수능 국어 영역에서 원점수 97점으로 1등급권에 안착했다. 올해 수능 국어 영역에서 단 한 문제만 틀리고 모두 맞힌 셈이다. 선택 과목은 '화법과 작문'으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

복잡한 추론이 필요한 수능 국어에서 기존 AI는 3~9등급 사이 점수를 받으며 고전해 왔는데, 최근 AI의 추론 능력이 비약적으로 발전하면서 o1-프리뷰 모델이 고득점 획득에 성공한 것이다. 챗GPT 기존 모델인 GPT-4o (2024년 5월 출시)모델은 2023~2024학년도 수능에서 모두 중위권 학생 수준인 4등급을 기록했다.

이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다. 마커AI 소속 개발자는 블로그를 통해 "2025학년도 수능에서 기록한 97점이라는 점수는 LLM의 한국어 능력이 인간을 뛰어넘을 시기가 머지않았음을 보여준다"고 평했다.

2025학년도 수능 국어 문제 중 일부를 이전 모델인 GPT-4o와 새로운 모델인 o1-프리뷰에 넣고 성능을 직접 비교해봤다.

서양 과학 및 기술 수용에 관한 다양한 관점을 다룬 비문학 지문을 두고 학자들의 엇갈린 반응을 살펴보는 7번 문제의 경우 최신 모델인 o1-프리뷰는 맞혔지만, GPT-4o는 오답을 냈다.

두 모델에 지문을 맡기자 o1-프리뷰는 '서양 과학의 유입' '역사적 변화' '서양 과학을 받아들이다' 등 스스로 주요 키워드를 뽑아가며 지문을 먼저 해석한 후 답변을 도출했다. GPT-4o는 이러한 과정을 건너뛰고 바로 답변을 도출했는데, 같은 묶음의 다른 문제들은 맞혔지만 지문을 비교해야 하는 문제에는 어려움을 겪은 것으로 보인다.

문학 영역 26번도 o1-프리뷰만 정답을 도출한 문제다. 이 문제는 장석남 '배를 밀며', 허수경 '혼자 가는 먼 집', 이광호 '이젠 되도록 편지 안 드리겠습니다'가 지문으로 나왔다. 주어진 지문 여러 개를 모두 읽고 비교·분석해야 하는 문제로, 유형 자체는 7번과 유사하다. 국어 교사 출신인 이만기 유웨이 교육평가연구소장은 "7번과 26번 모두 주어진 지문에서 두 군데를 표시해두고 정확히 이해했는지를 서로 비교하며 물어보는 비슷한 유형"이라며 "전반적으로 읽고 분석해야 하는 정보의 양이 많은 문제로 지문을 세부적으로 이해하는 데 어려움을 겪을 수 있다"고 평가했다.

모의고사 출제 경험이 많은 김현진 종로학원 국어 책임연구원 역시 정보량이 많은 문제라는 의견에 동의했다. 그는 "지문 분량이 길거나 지엽적인 부분을 찾아봐야 해서 문제를 푸는 데 시간이 걸릴 수 있다"고 말했다.

비교 모델인 GPT-4o 또한 올해 출시된 모델이지만, 이처럼 큰 격차를 보인 것은 o1-프리뷰 모델이 단계적인 사고 과정을 통해 복잡한 문제를 해결하는 데 특화돼 있기 때문이다. 따라서 복잡한 수능 지문을 읽고 이에 딸린 3~5개의 문제를 빈틈없이 풀어낼 수 있었던 것이다.

다만 답변을 제공하기까지 걸리는 시간은 o1-프리뷰 모델이 더 길었다. (가)~(다)의 지문을 읽고 22번부터 27번까지 총 6개의 문제를 풀어야 하는 과제를 주자 약 1분10초의 시간이 걸리기도 했다.

오픈AI는 o1-프리뷰 모델 출시 당시 "사람처럼 문제를 해결하기 전에 더 많은 시간을 생각하도록 훈련시켰다"고 설명했다. 시간을 더 많이 들이되 추론 과정을 꼼꼼히 하는 데에 주안점을 뒀다는 설명이다. 물론 실제 사람이 푸는 속도보다는 훨씬 빠르다.

한 AI 개발자는 이번 챗GPT의 수능 결과에 대해 "GPT 성능이 많이 좋아진 것을 체감하고 있는데, 이를 수치로 확인하니 흥미롭다"며 "다만 o1 모델은 추론 속도가 느리고 비용이 높아 대규모 작업에는 적합하지 않을 것"이라고 말했다.

[정호준 기자 / 이용익 기자]

매일경제

IT/과학

챗GPT가 달라졌다 … 수능국어 8등급서 올해는 1등급