"질문 바꿨더니 9등급→1등급"…GPT로 수능 문제 풀어보니

진학사, AI로 국어 영역 문제 풀이
프롬프트 바꿨더니 점수도 바뀌어
"정답만 말해줘"는 9등급
풀이과정 요구하니 1등급
"지시에 따라 성능 달라져"

생성형 인공지능(AI)에 어떤 방식으로 프롬프트를 입력하느냐에 따라 문제 풀이 성적이 극명하게 달라진다는 실험 결과가 나왔다.

진학사 블랙라벨사업부는 2026학년도 대학수학능력시험 국어 영역 시험지를 챗GPT에게 풀게 한 결과를 21일 발표했다. 같은 모델에 동일한 시험지를 입력했음에도 지시(프롬프트) 방식에 따라 성적이 9등급에서 1등급까지 극단적으로 갈리는 현상이 나타났다는 설명이다.

실험에는 ‘ChatGPT 5.1 오토(Auto)’ 모드를 사용했다. 유일한 변수는 지시 방식으로 뒀다. 진학사는 △시험지 전체를 이미지로 제공하고 정답만 요구한 A 방식 △문항 세트별 PDF를 제공해 정답만 요구한 B 방식 △PDF 제공과 함께 단계별 풀이를 요구한 C 방식 등 세 가지 방식으로 문제 풀이 결과를 비교했다.

시험지는 2026학년도 대학수학능력시험 국어 영역(홀수형)으로, 공통과목 1~34번(76점)과 선택과목인 화법과 작문, 언어와 매체 각 35~45번(24점)으로 구성됐다.

'정답만 말해줘'라는 단순 지시만 제공한 A방식에서 GPT는 최소한의 추론만 수행한 것으로 나타났다. 그 결과 A 방식의 점수는 공통 3점, 화법과 작문 5점, 언어와 매체 4점에 그쳤다. ‘공통+화작’ 점수는 8점으로 진학사 가채점 배치표 기준으로 9등급에 해당하는 성적이다.

문항 세트별 PDF를 제공한 B 방식에서는 공통 39점, 화법과 작문 14점, 언어와 매체 6점으로 성적이 크게 올랐다. 세트별 구조가 추가되면서 일부 추론 과정이 보완됐지만, 여전히 깊이 있는 분석에는 미치지 못한 것으로 평가됐다. ‘공통+화작’ 점수는 53점으로 진학사 기준 5등급에 해당했다.

단계별 비교와 근거 제시 등 정밀한 풀이 과정을 요구한 C 방식에서는 성능이 가장 크게 향상됐다. 공통 74점, 화법과 작문 21점, 언어와 매체 14점을 기록해 총점 95점(1등급)이 나왔다. 그러나 방식 B에서 정답을 맞혔던 문항을 방식 C에서는 오히려 틀리는 사례도 나타났다. 진학사 관계자는 “GPT가 정밀한 절차를 따르는 과정에서 판단 경로가 예상치 못하게 바뀌거나, 제시된 근거를 과도하게 복잡하게 해석해 오류가 발생한 것으로 보인다”고 설명했다.

진학사 블랙라벨사업부 관계자는 “같은 AI 모델이라도 어떤 방식으로 지시하느냐에 따라 성능이 크게 달라진다”며 “AI는 높은 지능을 갖고 있지만 지시를 정교하게 이해하는 능력은 아직 충분하지 않은 만큼 사용자 프롬프트 설계가 성능 차이를 만드는 핵심 요소”라고 말했다.

이미경 기자 capital@hankyung.com

한국경제

사회

"질문 바꿨더니 9등급→1등급"…GPT로 수능 문제 풀어보니