"대학에서 고득점 받은 AI가 쓴 답안, 걸러지지 않았다"

챗GPT-4가 작성한 답안이 영국 대학 시험 시스템에서 거의 탐지되지 않고 실제 학생들이 낸 답안보다 고득점한 것으로 나타났다. 게티이미지뱅크 제공

영국 연구팀이 인공지능(AI)으로 생성한 답안이 실제 대학교 시험에서 탐지망을 뚫고 학생들이 직접 작성해 제출한 답안보다 더 높은 점수를 받았다는 연구결과를 내놨다. 과학자들은 챗GPT 등 AI 도구 사용이 대중화되면서 교육과 평가 시스템에 대책 마련이 필요하다고 지적했다.

피터 스카프 영국 레딩대 심리학 및 임상언어과학과 교수 연구팀은 대학교 시험 시스템에서 AI로 생성한 답안이 걸러지지 않고 학생들이 제출한 것보다 높은 점수를 받았다는 사실을 실험으로 밝혀내고 연구결과를 26일(현지시간) 국제학술지 '플로스원'에 공개했다.

챗GPT와 같은 AI 도구가 최근 급속도로 발전하고 보급되면서 학생들이 AI로 생성한 내용을 자기 이름으로 제출하는 부정행위에 대한 우려가 커지고 있다. 특히 신종 코로나바이러스 감염증(코로나19) 대유행 시기에 다수 대학이 재택 시험으로 전환하고 이를 유지하는 경우가 많아 문제는 더욱 심각하다.

연구팀은 챗GPT-4가 100% 작성한 답안을 생성한 뒤 가짜 학생 33명으로 위장하고 레딩대 심리학 및 임상언어과학부 시험 시스템에 제출했다. 채점자들은 연구에 대해 전혀 몰랐다.

그 결과 AI가 제출한 답안 중 94%가 탐지되지 않은 것으로 나타났다. AI가 생성한 답안이 실제 학생이 작성해 제출한 답안보다 평균적으로 더 높은 점수를 받았다. 학생들이 AI를 이용해 시험 부정행위를 할 수 있을 뿐만 아니라 부정행위를 하지 않은 학생보다 더 좋은 성적을 받을 수도 있는 것이다. 연구팀은 "실제 학생 중 상당수가 이미 AI가 생성한 답안으로 부정행위를 했을 수 있다"고 설명했다.

지난해 유네스코가 450개 학교를 대상으로 실시한 설문조사에 따르면 생성형 AI 사용에 대한 정책·지침이 있는 학교는 10% 미만인 것으로 나타났다. 연구팀은 전 세계 교육계가 새로운 정책과 지침을 마련해 문제를 해결해야 한다고 촉구했다.

연구팀은 "대면 시험으로 돌아가는 것이 문제를 해결하는 데 도움이 될 수도 있지만 AI 도구는 계속 발전하고 직장에서도 쓰이는 중"이라며 "전 세계 교육계가 AI에 맞서 진화해야 한다"고 지적했다.

<참고 자료>
- doi.org/10.1371/journal.pone.0305354

[이병구 기자 2bottle9@donga.com]

동아사이언스

IT/과학

"대학에서 고득점 받은 AI가 쓴 답안, 걸러지지 않았다"