AI에게 한국 수능을 풀게 했다, 결과는?

AI의 수능시험 풀이 능력을 검증해봤다. AI는 언어 영역에서 평균보다 월등한 성적을 보였다. 수리와 과학 추론에서는 약점을 드러내기도 했다. ‘지피티’와 ‘클로드’의 입시 결과는 어땠을까?

AI 로봇이 수능 시험지를 풀고 있는 모습. 이미지 생성 AI 미드저니가 그렸다. ⓒ미드저니 생성 이미지

인공지능이 사람 능력을 압도하고 있다는 뉴스가 매일 넘쳐난다. 하지만 너무 걱정 마시라. 아직 인공지능이 인간을 넘보지 못하는 분야가 있다. 바로 한국의 대학수학능력시험(수능시험)이다.

〈시사IN〉은 오늘날 최첨단 인공지능의 인지 추론 능력이 어느 수준인지 검증해보기 위해 인공지능으로 하여금 수능시험을 직접 풀게 하는 실험을 해봤다. 물론 수능시험이 인지능력을 재는 완벽한 척도는 아니다. 대학입시는 학생의 종합적 사고능력 가운데 단편적인 부분만 측정할 뿐이라는 비판이 오래전부터 있어왔다.

그럼에도 불구하고 수능은 한국의 많은 사람들이 공통적으로 경험한 시험이므로 인공지능 능력치를 직관적으로 파악하는 데 유용할 수 있다. 흔히 인공지능 수준을 논할 때 고등학생 수준, 학부생 수준, 대학원생 수준 등의 표현이 관용구로 쓰이곤 한다. 수능 성적을 통해 실제 인공지능의 현주소를 객관적인 숫자 지표로 파악해보려는 의도에서 이번 실험을 진행했다.

테스트의 기준으로 삼은 것은 2023년 11월16일 치러진 수학능력시험 기출문제다. 시험을 치르는 ‘수험생’ 인공지능 모델은 GPT-4o와 클로드 3.5 소네트(Claude 3.5 Sonnet) 두 종류였다. 이 두 모델은 현존하는 인공지능 중 최고의 두 강자로 꼽힌다. 인공지능 모델 성능 비교는 여러 곳에서 시도하고 있지만 그중에서도 ‘챗봇 아레나(chat.lmsys.org)’라는 곳의 비교 점수가 공신력이 높다. 이 사이트에서 GPT-4o와 클로드 3.5 소네트는 각각 종합점수 1287점과 1272점으로 전 세계 115개 인공지능 모델 중 근소하게 1·2위를 다투고 있다.

GPT-4o는 미국의 오픈AI 사가 2024년 5월13일에 공개한 GPT4 시리즈의 최신 버전이다. 읽을 때 ‘지피티 포오’ 또는 ‘지피티포 옴니’로 발음한다. 오픈AI는 GPT-4o의 사고능력 수준이 대학교 학부생 단계에 도달했다고 자랑해왔다. 오픈AI가 5월13일 홈페이지를 통해 밝힌 공식 자료에 따르면 GPT-4o는 광범위한 학문 분야에 대한 이해도를 측정하는 MMLU 테스트에서 88.7점을 기록했고 수학 문제해결 능력을 평가하는 MATH 테스트에서 76.6점을 받았는데, 이는 대학 학부 졸업생 수준의 실력을 의미한다.

또 다른 수험생 클로드 3.5 소네트는 미국의 앤스로픽 사가 개발한 모델이다. 앤로픽의 기존 최강 모델이었던 클로드 3.0 오푸스(Opus) 모델보다 더 낫다는 평가를 받는다. 챗봇 아레나의 코딩 개발 능력 순위에서는 1301점으로 GPT-4o의 1296점보다 점수가 높다.

두 인공지능 모델은 모두 웹상에서 채팅 대화를 통해 답변을 내는데, 파일 자체를 채팅창에 입력할 수도 있다. 〈시사IN〉은 작년 수능 기출문제가 담긴 PDF 문서 파일을 잘게 쪼개 웹 채팅창에 입력 가능하게끔 만든 뒤, 하나씩 질문을 하고 답을 얻는 방법으로 시험을 진행했다. 최대한 실제 수능과 비슷한 상황을 가정했다. 예를 들어 GPT-4o는 음성인식 기능이 있으므로 영어 듣기평가 영역에서는 실제 음성파일(mp4)을 들려주고 답변을 얻는 방식으로 진행했다. 앞으로 두 수험생에게 ‘클로드’와 ‘지피티’라는 세 음절 이름을 붙여 부르기로 하자.

과연 두 수험생의 수능시험 결과는 어땠을까. 결론을 말하자면 인공지능은 어학 시험에서 인간 학생의 평균을 추월했으나 나머지 분야에서는 아직 평균 점수에 미치지 못했다(〈그림 1〉〈그림 2〉 참조).

두 인공지능 모델 중에 승자는 클로드였다. 클로드는 국어·영어·일본어에서 모두 2등급을 받으며 언어 영역에 탁월한 모습을 보였다. 국어 성적은 100점 만점에 82점(원점수)으로 상위 9% 안에 드는 뛰어난 성적이었다. 영어도 100점 만점에 87점으로 준수했다. 종합적으로 봤을 때, 클로드가 지피티보다 성적이 좋았다.

클로드의 특출한 언어 성적에 경탄하기 전에 한 가지 주의해야 할 점이 있다. 먼저 영어 듣기평가의 경우, 클로드는 아직 음성인식 기능이 없으므로 대본을 읽고 답을 하는 것으로 대신했다. 무엇보다 클로드 3.5 소네트는 2024년 4월까지의 인터넷 웹상에 존재하던 데이터들을 대상으로 학습했다. 이번에 테스트해본 한국 수능시험은 2023년 11월에 치렀으므로 클로드 학습 과정에서 지난해 수능 기출문제와 정답 해설지가 이용되었을 가능성을 배제할 수 없다.

수험생 ‘클로드’에게 유리한 대결?

한국의 인공지능 전문가인 한국에너지기술연구원 이제현 박사(책임연구원)는 “클로드 모델이 작년 수능 기출문제를 학습에 이용했는지 아닌지를 가려내기는 상당히 어렵다”라고 말했다. 다만 이제현 박사는 클로드 3.5 소네트의 학습 데이터 범위가 지난해 수능 이후까지라고 해도, 클로드가 거둔 성적을 가볍게 여기기 어렵다고 강조한다. “흔히 사람들은 인공지능이 대화창에서 답변하는 것을 보고 마치 구글 검색을 해서 답변을 내는 것과 비슷하게 생각하는 경우가 있는데 그렇지 않다. 검색 자료에 해당 데이터가 포함되어 있느냐 없느냐는 검색 결과에 중요한 영향을 끼칠 것이다. 하지만 어느 인공지능 모델의 그 많은 과거 학습 자료에 기출문제가 포함되었냐 아니냐 여부가 답변 결과에 결정적인 영향을 미쳤다고 딱 잘라 말하기는 어렵다”라고 설명했다. 이 박사는 클로드가 언어 성적이 우수하다는 결과는 이미 여러 연구에서 입증되었으므로, 한국의 수능시험 언어영역을 잘 치렀다는 사실이 딱히 이상한 결과는 아니라고 해석했다.

클로드는 언어 분야와 달리 수학 영역에서는 점수가 꽤 낮았다. 100점 만점에 34점으로 6등급에 머물렀다. 상위 66%에 해당하는 성적으로 지난해 수험생 평균보다 훨씬 못했다. 생활과 윤리(사회탐구)는 4등급이었고, 사회와 문화(사회탐구)는 6등급, 생명과학I이 5등급, 지구과학I이 6등급이었다. 수험생 평균과 비슷하거나 낮은 수준이었다.

GPT-4o는 2023년 10월까지의 지식만 학습했다고 오픈AI는 밝히고 있다. 그 말이 사실이라면 지피티는 지난해 수능시험 기출문제를 보지 않은 상태로 문제를 풀었으므로 더 공정한 시험을 치렀다고 볼 수 있다. 지피티의 수학 성적은 100점 만점에 66점(원점수)으로 클로드보다 좋았다. 상위 34%에 해당하는 성적이었다. 하지만 국어(59점)와 영어(79점) 성적은 클로드보다 못했다. 흔히 ’GPT는 이과, 클로드는 문과’라는 개발자들 사이에서 나돌던 풍문이 어느 정도 사실로 확인되는 순간이었다.

하지만 지피티는 종합적으로는 클로드보다 성적이 나빴다. 사회탐구와 과학탐구는 6~7등급에 머물러 수험생 평균보다 훨씬 낮았다. 일본어 영역에서는 50점 만점에 37점을 받아 3등급을 받았다. 다만 지피티는 한국사 영역에서 2등급으로 높은 점수를 얻었다. 한국사 분야 ‘일타강사’로 불리는 전한길씨는 “수능 한국사는 절대평가로 등급이 매겨진다. 문제가 꽤 쉬운 편이라 2등급 받는 게 그리 어렵지는 않다. 복잡한 추론이 필요하지 않아 놀라운 성적은 아니다”라고 설명했다.

GPT-4o가 ‘대학생 수준’이라던 오픈AI의 자랑이 무색해지는 결과다. 한국 고등학교 수험생이 미국 대학생보다 지식 수준이 높은 것일까. 한 가지 고려할 점은, 인공지능의 한국어 능력이 아직까지 영어 능력과 차이가 난다는 것이다. GPT를 비롯한 거대언어모델(LLM)들에게 영어로 질문했을 때가 한국어로 했을 때보다 답변 품질이 좋다는 연구 결과도 많다. 작년 UCLA 심리학과 연구팀은 GPT 모델이 미국판 수능이라고 할 수 있는 SAT 시험에서 인간 평균보다 높은 성적을 냈다고 밝힌 바 있다.

지피티와 클로드, 대입 컨설팅 받아보니

한국 수능시험의 경우, 비국어 영역에서도 상당한 국어 해독 능력을 요구한다. 실제로 지피티는 수학 시험에서 ‘등비수열’을 ‘arithmetic sequence(등차수열)’라고 영어로 잘못 읽고는 오답을 내기도 했다. 또 다른 예로, 생활과 윤리(사회탐구) 6번 문제는 ‘다음 토론의 핵심 쟁점으로 가장 적절한 것’이 무엇인지를 물었는데, 지피티는 ‘핵심 쟁점’이라는 말을 핵심 주제로 잘못 해석해 오답을 냈다. 문제의 맥락상 ‘핵심 쟁점’은 토론의 가장 중요한 주제가 아니라 토론자들이 서로 입장이 가장 갈리는 지점을 가리켰다.

한국에너지기술연구원 이제현 박사는 시험 진행 방식이 인공지능에 불리했다는 점을 지적했다. 비록 두 인공지능 모델이 PDF 파일 입력을 허용하고는 있지만, 주어진 파일에서 내용을 추출해내는 과정에 오류가 생길 수 있다는 것이다. 실제로 지피티가 수학 시험을 치르는 과정에서 문제에 f’(x)라고 쓰인 것을 f(x)로 잘못 읽고 오답을 낸 경우가 있었다. 한국의 수학능력시험은 그림·도표·도형 등을 종합적으로 읽고 해석하는 문제가 많은데, 인공지능의 이미지 해독 능력은 아직 떨어진다. 이제현 박사는 “질문 방식을 좀 더 연구해 개선한다면 인공지능의 성적이 더 올라갈 수 있을 것이다”라고 말했다.

만약 두 인공지능 모델이 실제 학생이었다면 두 사람은 어느 정도 대학에 합격이 가능했을까. 입시 전문가인 김호진 토마스아카데미 원장에게 사람 학생이 저 성적을 얻었다고 가정하고 대학입시 상담을 해보았다. “두 학생 모두 서울권 대학은 전혀 지원할 수 없다. 클로드 학생의 경우는 경기권 하위, 충청권 중하위, 지방권 중위권 대학 정도다. 지방권이라도 인기가 있는 부산대·경북대·충북대·충남대 등은 합격하기 힘들고 그 아래급의 대학에 지원해야 한다. 경기권은 용인대·수원대 정도가 적정 합격 수준이고 충청권은 건국대(글로컬), 단국대 천안, 상명대 천안, 지방 국립대로는 강원대·제주대 정도에 지원할 수 있을 것이다. 다른 지방 사립대들은 합격 가능한 점수대다.” 김호진 원장은 지피티 학생의 경우에는 “재수를 할 것을 권한다”라며 냉정한 평가를 내렸다.

높은 언어 성적에도 불구하고 재수를 권유받다니 인공지능 처지에서는 자존심이 상할지도 모르겠다. 만약 재수를 하면 성적이 더 오를 수 있을까. 올해 말이 되면 새로운 인공지능 모델이 출시될 가능성이 높다. 오픈AI의 최고경영자 샘 알트먼은 현재 GPT5의 학습이 진행 중이라고 밝힌 바 있다. 지난 3월 한 유튜브 대담에서 샘 알트먼은 새 모델이 출시되면 기존 모델은 구식으로 느껴질 것이라고 말했다. GPT5 출시 시기는 공개되지 않았으나 GPT4가 나온 시기를 고려하면 올해 안에 출시될 가능성도 있다. 만약 지피티가 올해 11월14일 수능시험으로 다시 테스트를 한다면 경쟁자 클로드를 이길 수 있을까. 언젠가 인공지능이 수능 1등급을 차지하는 날이 올까.

물론 설사 그날이 온다 해도 우리 인류가 패배했다는 식으로 과대 해석할 필요는 없다. 오히려 “인공지능도 다 푸는 수능 문제 따위에 왜 그리 집착하느냐”라고 되물어야 할지도 모른다. 그날은 오히려 우리 사회가 수능 만능주의 풍조에서 자유로워지는 날이 되어야 하지 않을까.

※2024 인공지능 콘퍼런스 - 생성형 AI의 새로운 차원

참가 신청: https://saic.sisain.co.kr/

신호철 편집위원 editor@sisain.co.kr

경제