‘27초’ 만에 24명 글쓰기 답안 채점…“점수 매번 달라 정확도 떨어져”[AI에 ‘교육’을 먹이면]

김송이·김원진 기자 2025. 12. 22. 20:41
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(하) 제대로 평가할 수 있을까
서울 여의도중학교 학생들이 지난 18일 AI 평가 도구에 활용될 과학 과목 서·논술형 표준 문항을 풀고 있다. 김송이 기자


초등학교 4학년 학생 24명의 글쓰기 답안 채점이 27초 만에 끝났다. 학생들이 ‘어린이날 기념 학급 행사로 무엇을 하면 좋을까’라는 주제로 쓴 답안의 초벌 채점을 인공지능(AI)은 1분도 안 걸려 해냈다. AI는 675자 안팎의 학생별 피드백까지 작성해줬다. 경기도교육청 ‘하이러닝’에 탑재된 AI 평가 도구에 학생들의 답안을 먹였더니 나온 결과였다. 경기 남양주시 초등학교 4학년 담임인 김승혁 교사는 “평가 시간을 줄인 만큼, AI가 정리한 피드백을 보고 다음 수업 준비에 공을 들일 수 있다”고 했다.

AI는 27초 만에 채점 결과를 내놓지만, AI에 평가 기준을 제시하고 점수에 최종 책임을 지는 이는 여전히 교사이다. 하이러닝이 내놓은 초벌 점수는 격자무늬와 괄호로 표시됐다. 교사가 최종 ‘클릭’을 해야 점수로 기입된다. 경기 안양시 고등학교의 국어과 A교사는 “100명씩 수행평가를 채점하는데 대입과 연동되다보니 학생·학부모·교사 모두 채점 결과에 민감한 편”이라며 “AI를 사용하나 안 하나 들어가는 노동량은 똑같다”고 했다.

교육 분야에서 AI 사용이 확산하는 것은 학생들의 과제와 학습에 국한되지 않는다. 시도교육청들은 AI를 평가 도구로 활용하는 것에 빠르게 움직이고 있다. 올해 2학기 경기교육청을 시작으로 서울·충남·대구·광주 교육청이 AI 평가 도구를 도입하려 준비 중이다. 민간 에듀테크(학습지회사)의 채점 서비스를 유료로 이용해본 교사도 적지 않다.

경향신문은 교육청과 에듀테크의 AI 평가 도구를 이용해본 초중고 교사 15명의 얘기를 들었다. ‘생산성 향상’을 체감하는 정도는 엇갈렸다. “(개별) 피드백을 줄 수 있다”는 점은 장점으로 꼽혔지만, 교사가 직접 채점할 때보다 오히려 공력이 더 든다고 토로하는 이들도 적지 않았다. 평가자로서 AI의 역할을 어디까지 허용할지부터 윤리, 정보보호에 이르기까지 사회적 합의가 필요하다고 했다.

AI로 업무 경감? AI가 먹어버리는 업무는

AI 평가는 서·논술형 평가 확대 기조를 타고 급부상했다. 내신에서 논술 문항이 많아진 만큼 교사가 평가에 할애하는 시간과 부담이 커졌기 때문이다. 교육당국은 AI 평가 도구를 업무 경감 수단으로 내세웠다. 평가 노동이 주는 만큼 그 시간에 다른 업무를 함으로써 교사의 생산성이 향상된다는 논리다. 차정인 국가교육위원장은 지난 12일 대통령 업무보고에서 “(서·논술형 평가의) 답은 AI에서 가져올 수 있다”고 했다. 정근식 서울시교육감도 학습자 주도의 서·논술형 평가를 확대하기 위해 AI 자동채점 모델을 개발한다고 했다.


다과목, 다학급 담당 교사들은 평가 생산성이 높아졌다고 했다. 경기 고양시 중학교의 국어과 B교사는 이번 학기 ‘주장하는 글쓰기’ 수행평가에서 AI 평가 도구를 활용했다. 이전과 가장 큰 차이는 피드백을 여러 번 줄 수 있다는 점이었다. 4개 학급 학생들이 손으로 쓴 초고를 스캔해 우선 피드백을 줬고, 고쳐쓰기 수업을 진행한 뒤 다시 한번 피드백을 줬다. B교사는 “기존에 한 학생에게 들이던 시간이 1시간이라면 AI 도구를 썼을 때 10~20분으로 줄었다”고 했다.

반대로 교사의 머릿속 채점 기준을 AI에게 ‘먹이는’ 과정에 손이 많이 간다는 이도 있었다. 고교 국어과 A교사는 “모든 과제물을 스캔하는 과정부터 거치고 교육과정에 맞춰 채점 기준을 넣어야 한다”고 했다. 요약, 논리성, 독창성, 주장과 근거의 일목요연함 등 서론·본론·결론마다 채점 요소를 넣어주는 작업도 이어진다. 그는 “급간의 개수를 넣고 배점을 맞추고 다시 조정하는 작업이 번거로워 주변에서 많이들 안 쓴다”며 “평가 전문성이 있는 분들은 AI가 총 소요 시간을 줄여준다고 생각하지 않는다”고 했다.

생활기록부 작성에 AI를 활용하는 경우도 많다. 생기부는 대학 입시에 영향을 미치는 자료로, 교사들의 업무 부담도 크다. AI로 생기부 초안을 만든 뒤 교사가 최종 검토하는 식으로 활용하는 경우도 있다. 유료 서비스를 사용해본 중학교 영어 담당 C교사는 “무에서 유를 창조할 때보다 힘이 훨씬 덜 들었다”며 “반복되는 표현을 사용하지 않기 위해 작은 표현 하나 고민하는 시간이 줄고 생각할 수 있는 한계치가 확장되는 느낌이었다”고 했다.

교사 ‘업무 경감’ 내세운 AI
생기부·서논술형 평가에 활용
“사용하든 말든 노동량 동일”
AI 채점 일치도 높아지면
교직의 평가권 빼앗길 우려
“보조 범위 구체적 합의해야”

먹일 때마다 점수가 달라요

평가의 보조 도구로 AI를 활용하는 경우는 많지만, AI를 신뢰하는 교사는 많지 않았다. 하이러닝이나 유료 AI 도구를 몇번 사용해본 뒤 “평가에는 쓰지 못하겠다”고 말한 교사가 여럿 있었다. 고교 16년차 D교사는 “같은 학생의 답안을, 동일 채점 요소를 넣고 돌려도 돌릴 때마다 점수가 다르게 나온다”고 했다.

D교사가 사용한 유료 서비스는 경기교육청 하이러닝에 도입된 E사 모델로, 언어모델의 생성형 AI를 기반으로 한다. AI가 학생 답안을 이해하고 채점하는 것이 아니라, 답안 내용이나 구조가 채점 기준과 유사하다면 확률상 그럴듯한 평가를 하는 식이다. 하이러닝에서 같은 답안을 먹여 채점해봐도 차이가 났다. 고교 국어 교사 중에는 E사 서비스에 대해 “상·하위권 학생 채점은 비교적 정확하지만 중위권 학생 평가 정확도가 떨어져 평가 설계가 고민된다”고 한 이들도 있었다.

경기도교육청 AI 평가 프로그램인 ‘하이러닝’을 이용해 초등학교 4학년 학생들의 손글씨 작문을 채점하는 모습이 컴퓨터 모니터에 표시돼 있다. 김송이 기자


이 때문에 AI 도구를 쓸 때 교사 개인이 평가할 때보다 채점 기준이 훨씬 구체적이고 명확해야 했고, ‘AI가 인식할 수 있는가’를 늘 염두에 둬야 했다. 가령 AI에게 ‘다양한 접속사 표현을 적절하게 사용했는지’ 평가하게 하려면 교사가 생각하는 ‘다양함’과 ‘적절함’을 어떻게 정량적으로 수치화해 제시할지 정해야 하는 식이다. 단순히 ‘결론적으로’라는 표현이 들어간다고 해서 AI 평가 도구가 ‘결론을 충실히 작성했다’고 판단하지 않도록 세심한 평가 설계도 필요했다.

AI 평가 도구를 써본 교사들은 장단점을 분류하기 시작했다. 이들은 AI 채점을 믿을 수 있는 영역과 그렇지 않은 부분으로 나눴다. 국어에선 AI가 채점 요소에 기재된 키워드를 학생의 문장·문단에서 찾아내는 것은 잘했지만, 글을 총체적으로 읽고 평가하는 것은 맞지 않다고 했다.

수학은 아직 AI 채점 도입이 어렵다. 제곱을 표기한 손글씨도 인식하지 못한다. 영어는 AI가 어법을 엄격하게 채점하지만 문장 표현이나 부사 활용 등은 너그럽게 채점한다는 평가를 받는다.

AI가 교사의 평가권을 먹어버릴까?

지난달 경기교육청의 하이러닝 AI 평가 홍보 영상은 ‘교사 조롱’이 담겼다는 비판 속에 논란이 됐다. 영상 속 교사는 “AI가 채점 도와준 거니까 너희들 할 말 없지?”라고 했다. AI 채점에는 이의 제기할 필요가 없다는 의미가 담겼다.

교육당국은 AI 평가 도구가 ‘주관이 배제돼 있으며 공정하고 일관성을 유지한다’(경기교육청 하이러닝 사업계획서)고 주장한다. 학생에 대한 교사의 주관적 평가나, 채점 순서에 따른 유불리가 배제되기 때문에 더 객관적일 수 있다는 것이다.

문제는 ‘AI가 더 믿을 만하다’는 전제가 깔리는 순간 교사의 평가와 AI의 평가 간 구분이 모호해진다는 점이다. ‘AI의 채점 일치도가 향상된다면’ 향후 교사의 평가권이 AI에 먹힐 수도 있지 않을까 하는 우려가 나왔다. 경기도 고교 17년차 국어 담당 F교사는 “이미 평가권이 어느 정도 침범됐다고 체감한다”고 했다. F교사는 “절대평가 과목이거나 교사가 세운 평가 기준과 맞다는 신뢰도가 쌓인다면 AI 도구로 (교사의 평가를) 대체하는 경향이 충분히 생길 것”이라며 “AI 도구는 ‘양날의 검’”이라고 했다. 업무 부담을 나눌 수 있는 보조 도구가 생기는 것은 반길 일이지만, 교사의 평가 권한이 점점 줄어든다고 느껴질 때는 조심스럽다는 것이다.

교육당국은 ‘AI는 어디까지나 교사의 보조 수단’이라고 했다. 서울교육청 관계자는 “AI가 발전해서 인간처럼 채점해준다고 하더라도 교사마다, 수업마다 기준이 있기 때문에 교사가 기준을 변경해갈 수 있을 것”이라며 최종 평가권은 교사에게 있다고 했다. 실제 경기·서울 교육청의 AI 평가 도구 모두 교사가 최종 확인해야만 넘어가는 식으로 기능이 구현됐다.

현장에선 ‘AI 보조’의 의미나, 어디까지 ‘AI가 보조할 수 있는지’ 정의가 교사마다 달랐다. 충남의 초등학교 송근상 교사는 AI 채점은 나이스(교육행정정보시스템)에 기재되지 않는 수행평가에만 참고용으로 쓴다고 했다. 반면 경기도 초등학교 G교사는 AI 평가 점수를 활용할뿐더러 AI의 피드백 내용을 그대로 복사해 학생과 학부모에게 제공한다고 했다. 송 교사는 “AI의 평가를 참고해 쓴다는 것의 기준이 사회적으로 합의되지 않은 모호한 부분”이라며 “교육부가 AI 교육을 얘기하지만 어떤 주체와 어떤 식으로 협의된 내용인지는 알 수 없다”고 했다.

합의되지 않은 것은 AI의 보조 범위만이 아니다. 교사들은 AI를 활용하는 방법부터 윤리, 정보보호, 책임 소재까지 모두 앞으로 정해가야 할 쟁점이라고 했다. 올해 하반기 서울의 한 고교에선 한 교사가 지필고사 문항을 사설 AI 평가 도구를 이용해 검토한 것이 알려졌다. 시험 문제를 촬영해 사설 AI 평가 도구에 넣어 문제 유출 우려가 제기됐다. AI 도구를 이용했는데 문제가 시험 전에 새어나간다면 누구 책임일까. 새로운 도구의 등장에 교사들의 활용 수준과 철학을 시험에 들게 할 예외적 상황은 언제든 발생할 수 있다.

<시리즈 끝>

김송이·김원진 기자 songyi@kyunghyang.com <시리즈 끝>

Copyright © 경향신문. 무단전재 및 재배포 금지.