챗GPT에 ‘대학 시험지’ 풀게 했더니···‘경악’할만한 결과 나왔다

남윤정 기자 2024. 6. 29. 06:00
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

생성형 인공지능(AI) 챗GPT-4로 생성한 답안이 실제 대학교 시험에서 학생들이 직접 작성해 제출한 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다.

그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

연합뉴스
[서울경제]

생성형 인공지능(AI) 챗GPT-4로 생성한 답안이 실제 대학교 시험에서 학생들이 직접 작성해 제출한 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다. 답안의 94%는 채점자에게 적발되지 않았다. AI 도구 사용이 대중화되면서 교육과 평가 시스템에 대책 마련이 필요하다는 지적이 나온다.

27일(현지시간) 영국 레딩대 심리·임상언어과학대학 피터 스카프 교수팀은 과학 저널 플로스 ONE에서 이 대학 실제 학부 시험에 AI 작성 답안을 제출하는 엄격한 블라인드 방식 실험에서 이런 결과를 얻었다고 밝혔다.

연구팀은 “이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험”이라며 “이 결과는 AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 튜링 테스트를 통과했음을 보여준다”고 했다.

연구팀은 이 연구에서 심리학 학사 학위 취득을 위한 5개 학부 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했다. 채점자들은 이 연구에 대해 모르는 상태에서 실험이 진행됐다.

그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

AI가 작성한 답안과 실제 학생 답안을 무작위로 선택해 비교할 경우 AI 답안이 점수가 높을 확률이 83.4%에 달했다.

또 실제 학생이 AI 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했고, 에세이 시험 중 1개에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘었다.

연구팀은 “이 결과는 학생들이 부정행위에 AI를 사용할 수 있고 이들이 다른 학생보다 더 좋은 성적을 받을 가능성을 시사한다”며 “연구 과정에서 실제 학생 중 상당수가 AI 생성 제출물을 통해 부정행위를 했을 가능성도 고려하고 있다”고 했다.

그러면서 “AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다”며 “전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 더 많은 노력을 기울여야 한다”고 강조했다.

남윤정 기자 yjnam@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?