[단독]‘백지’ 제출 답안지에도 ‘점수’ 준 AI, 채점 기준 어떻길래···

김송이·김원진 기자 2026. 1. 9. 06:04
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

학교 5곳 서·논술형평가 보고서
글 분량만 보고 높은 점수 주는 등
AI 환각으로 과대·과소 평가 발생
정량화된 기준 줘야 정확도 높아
“교사 ‘평가 전문성’ 강화가 우선”
“학생별 피드백 가능한 게 장점”
로이터연합뉴스

교육청의 인공지능(AI) 평가 도구를 이용해 본 교사들이 AI에 구체적으로 표현을 정의해주고, 정량화된 기준을 제공할수록 채점의 정확도가 높았다고 평가한 것으로 확인됐다. 서·논술형 등에 AI 평가 도입이 확산되는 상황이어서, AI 평가 기준을 만드는 설계자로서 교사의 역량을 키울 필요가 있다는 의견도 나왔다.

8일 경향신문이 확보한 5개 경기도 학교의 AI서논술형평가 시범운영연구회 보고서를 보면, 잘못된 정보를 그럴싸한 사실인 것처럼 생성하는 AI 환각으로 인한 과대·과소평가가 발생한 것으로 나타났다. 전반적으로 채점기준표를 정량화해서 제시할수록 교사 채점 결과와 일치도가 높아졌고, 서·논술형 평가에서는 AI 평가를 신뢰하기 어려운 사례가 발견됐다.

청북고 연구에선 학생이 백지 답안을 제출했는데도 AI가 점수를 준 사례가 확인됐다. 정천중 수행평가에선 학생이 과제 조건 중 하나인 제시문을 활용하지 않았는데도 AI가 글의 분량만 보고 높은 점수를 주거나, 과학 개념을 혼동했는데도 유사 표현으로 인식해 정답으로 처리했다.

AI가 답안을 과소평가하는 문제도 발견됐다. 불필요한 설명 없이 간결하게 쓴 답에 대해 AI가 낮게 평가하거나, 도덕 수행평가 중 학생이 새로운 대안을 제시했지만 평가 기준 예시에 없다는 이유로 AI가 인정하지 않기도 했다.

교사들은 지난해 과목별 수행평가와 지필고사에서 ‘하이러닝’ AI 채점 도구를 활용해 본 뒤 연구보고서를 작성했다. 보고서에는 평가 기준을 수치적 기준 등으로 구체화해야 한다는 제언이 담겼다.

교사들은 ‘설명하다’ ‘제안한다’ 등의 표현을 구체적으로 정의할수록 AI 채점의 일치도가 높아진다고 평가했다. 예를 들어 ‘설명하다’라는 기준을 ‘개념을 정의하고 원리·이유를 구체적 사례와 함께 서술하다’ 등으로 입력해야 정확하게 평가했다. ‘충분히 제시함’ ‘구체적으로 작성함’ 등의 추상적인 부사어는 ‘근거를 3가지 이상 제시함’ 같은 수치적 기준으로 대신해야 했다.

교사가 꼽은 AI 채점 도구의 강점은 학생들에게 개별화된 피드백을 줄 수 있다는 점이었다. 오남고 면담에 참여한 교사들은 “채점의 효율성 향상, 평가 결과 공정성 제고, 개별 피드백 제공의 용이성 측면에서 고루 만족도가 높게 나타났다”고 했다. 학생들도 보완점 피드백을 구체적으로 받을 수 있는 점을 긍정적으로 평가했다.

현재 AI 채점 도구의 수준으로는 교사의 업무 경감에 큰 도움이 되지는 않는 것으로 조사됐다. 정천중 교사 48명 중 하이러닝을 사용해 본 인원은 64.6%(31명)이었다. 시간 부족과 필요성을 느끼지 못했다는 답변이 각각 35.5%를 차지했다. 실제 사용해 본 교사 17명 중 ‘채점 시간과 업무 부담이 감소한다’에 동의한 비율은 29.4%에 그쳤다. 평가 기준을 설계하고 결과를 검토하기까지 교사의 노동력이 많이 들기 때문으로 풀이된다.

연구에 참여한 교사들은 교사의 평가 전문성이 강화될수록 AI 채점 도구의 신뢰도도 높아진다고 분석했다. 전문성을 키울 수 있는 교원 연수가 확대돼야 한다고도 했다. 운중고 연구회는 “교원 연수의 방향을 단순 기능 습득에서 ‘평가 설계자’로서 전문성을 기르는 심화 과정으로 전환해야 한다”고 했다.

정부는 AI행동계획 가안에서 올해 1분기부터 AI 채점 지원 시스템 구축을 지원하라고 권고했다. AI 채점 지원을 안정적으로 도입하기 위해선 교사 전문성 강화가 우선이라는 시각도 있다. 17년차 고등학교 국어교사는 “서술형 평가에서 공정하면서도 사고력을 적절히 측정하는 문제란 무엇인지 어렵다는 의견도 많다”며 “AI 채점을 도입한다고 이러한 어려움이 저절로 해소되진 않는다. AI를 활용하는 교사의 평가 역량을 키우기 위한 고민과 좋은 평가 기준에 대한 논의가 먼저 이뤄져야 한다”고 했다.


☞ AI 교과서 데자뷔? ‘속도전’ 인공지능 계획에 교육계 우려
     https://www.khan.co.kr/article/202601051656001


☞ 글쓰기 수업에 GPT가 ‘고쳐준’ 문장 절반 외워왔다면, ‘내것’일까? [AI에 교육을 먹이면]
     https://www.khan.co.kr/article/202512100600091


☞ 24명 서술형 답안, 27초 만에 ‘채점 끝’···그런데 이 점수, 믿을 수 있을까[AI에 교육을 먹이면]
     https://www.khan.co.kr/article/202512221658011

김송이 기자 songyi@kyunghyang.com, 김원진 기자 onejin@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.