제미나이 87점·챗GPT 60점·퍼플렉시티 43점…AI 성적 가른 건 ‘문해력’

■AI에 고3 3월 학평 풀게 했더니
제미나이, 국수영 평균 87.8점
서울대·연고대 지원 가능 수준
챗GPT는 4등급대 머물러 저조
국어·영어는 대부분 수분내 풀이
수학은 모델마다 최대 1시간 소요
맥락 묻는 언어는 중3 수준도 오답

고등학교 3학년 수험생들이 지난달 치른 전국연합학력평가(학평) 문제를 주요 생성형 인공지능(AI)에 풀게 한 결과 모델별 성적이 ‘서울 상위권 대학 지원 가능’ 수준부터 ‘중하위권’까지 크게 엇갈린 것으로 나타났다. 같은 시험지를 두고도 평균 점수가 두 배 가까이 벌어졌으며 특히 문맥 파악이 필요한 기초적인 문항에서 의외의 오답도 발생했다.

31일 종로학원이 3월 학평 국어·수학·영어 문제를 주요 생성형 AI 모델에 입력해 원점수 기준으로 채점한 결과 평균 점수는 제미나이(87.8점), 챗GPT(59.5점), 퍼플렉시티(43.7점) 순으로 집계됐다.

점수를 등급으로 환산했을 때 제미나이는 국어와 수학에서 1등급, 영어 2등급 수준을 기록하며 서울대·연세대·고려대 등 이른바 ‘SKY’ 지원도 가능한 성적을 거둔 것으로 평가됐다. 반면 챗GPT는 전반적으로 4등급대에 머물렀고 퍼플렉시티의 경우 수학에서 6~8등급까지 추락하며 모델 간 성능 편차가 극명하게 드러났다. 이번 테스트에는 각 모델의 유료 구독 버전이 사용됐다.

과목별 소요 시간을 보면 국어와 영어는 대부분 수분 내에 풀이를 마쳤으나 수학은 상대적으로 긴 시간이 소요됐다. 제미나이는 약 40분, 챗GPT는 30분, 퍼플렉시티는 1시간가량이 걸렸다.

가장 큰 격차가 벌어진 과목은 수학이었다. 퍼플렉시티는 확률과 통계 19점, 미적분 13점, 기하 13점에 그친 반면 제미나이는 각각 92점, 91점, 89점을 기록하며 압도적인 정답률을 보였다. 챗GPT 역시 선택과목별로 40~50점대에 머물며 중위권 성적에 그쳤다. 종로학원 측은 “복잡한 조건을 해석하거나 단계별 풀이 과정을 설계해야 하는 문항에서 모델 간 기술력 차이가 극명하게 나타났다”고 분석했다.

국어에서도 지문 이해 능력에 따라 점수가 갈렸다. 제미나이는 화법과 작문 84점, 언어와 매체 85점으로 1등급 수준을 유지했으나 나머지 모델은 40~60점대에 그치며 고전했다. 특히 독서와 문학 등 여러 정보를 종합적으로 판단해야 하는 비문학 지문에서는 세 모델 모두 정답률이 하락하는 모습을 보였다.

정답률 90%가 넘는 평이한 문항에서 오답을 내기도 했다. 언어와 매체 43번 문항(스마트팜 데이터 관련)은 대화 맥락을 바탕으로 문제점을 찾는 기초적인 문제였으나 일부 모델은 정보 간의 연결 고리를 파악하지 못해 오답을 냈다. 임성호 종로학원 대표는 “해당 문항은 중학교 3학년 수준의 평범한 문제임에도 AI가 오답을 낸 것은 제시된 정보를 유기적으로 연결하는 능력이 부족하기 때문”이라고 설명했다.

상대적으로 언어 장벽이 낮은 영어에서는 세 모델 모두 안정적인 성능을 보였다. 퍼플렉시티가 98점으로 가장 높았고 챗GPT(96점), 제미나이(86점)가 뒤를 이었다. 다만 빈칸 추론이나 간접 쓰기 등 고도의 논리적 추론이 필요한 문항에서는 공통적으로 취약점을 드러냈다.

박남기 광주교대 명예교수는 “AI가 방대한 데이터를 학습하더라도 결국 정교한 분석과 판단을 위해서는 인간의 기초 지식과 문해력이 전제돼야 한다”며 “아는 것이 없으면 올바른 질문조차 할 수 없듯 교육의 현장에서는 여전히 기본 개념과 사고력을 기르는 기초 학습이 가장 중요하다”고 강조했다.

신서희 기자 shshin@sedaily.com

서울경제

사회

제미나이 87점·챗GPT 60점·퍼플렉시티 43점…AI 성적 가른 건 ‘문해력’