대학교 시험 답안 "챗GPT, 학생들보다 우수"

이영호 2023. 8. 25. 08:22
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

대학의 컴퓨터과학과 정치학, 공학, 심리학 등 다양한 강좌에서 실시된 평가에서 생성형 인공지능(AI) 챗봇 '챗GPT'(ChatGPT)가 대학생들과 비슷하거나 더 우수한 성적을 거둔 것으로 나타났다.

그 결과 학생의 74%는 과제를 할 때 챗GPT를 사용할 것이라고 답한 반면 모든 국가의 교수들은 학생들의 챗GPT 사용 의향을 과소평가했으며 70%는 챗GPT를 사용할 경우 표절로 간주할 것이라는 입장을 보였다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[한국경제TV 이영호 기자]

대학의 컴퓨터과학과 정치학, 공학, 심리학 등 다양한 강좌에서 실시된 평가에서 생성형 인공지능(AI) 챗봇 '챗GPT'(ChatGPT)가 대학생들과 비슷하거나 더 우수한 성적을 거둔 것으로 나타났다.

또 학생들은 70% 이상이 과제를 할 때 챗GPT를 사용하겠다는 의견을 보인 반면 교수들은 70%가 챗GPT 사용을 표절로 간주할 것이라는 입장을 보였다.

아랍에미리트(UAE)에 있는 뉴욕대 아부다비(NYUAD)의 탈랄 라완·야시르 자키 교수팀은 25일 과학저널 '사이언티픽 리포트'(Scientific Reports)에서 32개 강좌에서 실시한 챗GPT·학생 평가 비교와 챗GPT 사용에 대한 5개국 학생·교수 설문조사에서 이런 결과를 얻었다고 밝혔다.

연구팀은 다양한 학문 분야의 챗GPT 능력을 학생과 비교하기 위해 먼저 8개 학과 32개 강좌의 교수들로부터 강좌별로 10개 문항의 평가를 해 학생 3명씩의 답안을 제출받고, 챗GPT에도 같은 문제에 대해 답을 3개씩 작성하도록 했다.

이어 학생들과 챗GPT 답안을 작성자가 누구인지 모르게 한 뒤 강좌별로 조교·박사후 연구원·박사과정 학생 등 평가자 3명에게 점수를 매기도록 했다.

그 결과 챗GPT는 32개 강좌 가운데 9개 강좌에서 학생들과 비슷하거나 더 높은 평균 성적을 기록한 것으로 나타났다. 특히 '공공정책 개론'에서는 챗GPT가 9.5점으로 학생(4.39점)보다 월등히 높은 점수를 받았다. 학생들이 일관되게 챗GPT를 능가하는 성적을 받은 강좌는 수학과 경제학뿐이었다.

연구팀은 또 브라질·인도·일본·미국·영국 등 5개국에서 1천601명(국가별 학생 최소 200명, 교수 100명 포함)을 대상으로 대학 과제를 하는데 챗GPT를 사용하는 것에 대한 의견 조사를 했다.

그 결과 학생의 74%는 과제를 할 때 챗GPT를 사용할 것이라고 답한 반면 모든 국가의 교수들은 학생들의 챗GPT 사용 의향을 과소평가했으며 70%는 챗GPT를 사용할 경우 표절로 간주할 것이라는 입장을 보였다.

또 챗GPT와 학생들의 답안을 AI 생성 텍스트 식별 프로그램인 'GPT제로'(GPTZero)와 챗GPT를 개발한 오픈AI의 'AI 텍스트 탐지기'로 검사한 결과 챗GPT 답안을 학생이 작성한 것으로 잘못 분류한 경우가 각각 31.55%와 49.37%나 됐다.

이는 현재 사용되고 있는 AI 텍스트 탐지기들의 신뢰도가 실제 학생들의 과제나 시험 답안 평가에 사용할 수 없을 정도로 매우 낮다는 것을 의미다.

연구팀은 챗GPT처럼 사람이 작성한 것과 구별할 수 없는 텍스트를 생성하는 강력한 AI가 등장해 누구나 사용할 수 있게 되면서 학생평가 과정의 무결성 논란이 촉발됐다며 이 연구 결과가 교육 분야의 AI 도구 사용 정책 수립에 도움이 될 것이라고 말했다.

(사진=연합뉴스)
이영호기자 hoya@wowtv.co.kr

Copyright © 한국경제TV. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?