챗GPT에 대학 시험지 줬더니… “점수 더 높고 들키지도 않아”

문지연 기자 2024. 6. 27. 10:58
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

챗GPT를 개발한 OpenAI 로고. /AP 연합뉴스

영국의 한 대학 시험에서 생성형 인공지능(AI) 챗GPT-4가 작성한 답안 94%가 채점자들에게 적발되지 않고, 83%는 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

26일(현지시각) 과학 저널 ‘플로스 원’(PLoS ONE)에 따르면 영국 레딩대 심리·임상언어과학대학 연구팀은 실제 학부 시험 도중 엄격한 블라인드 방식 실험을 진행해 이 같은 결과를 얻었다고 밝혔다. 그러면서 “AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 ‘튜링 테스트’(Turing Test)를 통과했음을 보여준다”고 했다.

연구팀은 심리학 학사 학위 취득을 위한 5개 학부 시험에서 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했다. 시험 항목은 단답형 3개와 에세이 2개로 구성됐다. 숙련된 채점자들은 연구 진행에 대해 모르는 상태에서 답안지를 받았다.

그 결과 챗GPT-4가 작성한 답안 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다도 높은 점수를 받았다. 챗GPT-4의 답안과 실제 학생 답안을 무작위로 골라 비교했을 때, 챗GPT-4의 점수가 높을 확률은 83.4%에 달했다.

또 실제 학생이 챗GPT-4 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했다. 에세이 시험 1개에서만 실제 학생 57.14%의 점수가 챗GPT-4 점수 중간값을 넘었다.

연구팀은 “학생들이 부정행위에 AI를 악용할 수 있다는 것을 보여준다”며 “AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다”고 했다. 그러면서 “전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 노력해야 한다”고 덧붙였다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?