"AI 답안, 대학 학부시험서 적발 안되고 점수 사람보다 높아"

英 연구팀 "챗GPT-4 답안, 94% 발견 안되고 83%는 사람 점수 능가"

(서울=연합뉴스) 이주영 기자 = 영국의 한 유명 대학에서 실시된 실험에서 생성형 인공지능(AI) 챗GPT-4가 작성한 답안의 94%가 숙련된 채점자들에게 적발되지 않았고 83%는 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

영국 레딩대 시험 실제 학생(주황색)과 AI(파란색)의 성적 5개 시험(P1-M1, P1-M2, P2-M1, P2-M2, P3-M1)의 실제 학생(주황색)과 AI(파란색)의 성적 및 전체 평균(ALL). 녹색 점선은 A등급 선이며 빨간색 점선은 B등급, 검은색 점선은 C등급 선. [Scarfe et al./ 2024, PLOS ONE 제공. 재판매 및 DB 금지]

영국 레딩대 심리·임상언어과학대학 피터 스카프 교수팀은 27일 과학 저널 플로스 ONE(PLoS ONE)에서 이 대학 실제 학부 시험에 AI 작성 답안을 제출하는 엄격한 블라인드 방식 실험에서 이런 결과를 얻었다고 밝혔다.

연구팀은 이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험이라며 이 결과는 AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 튜링 테스트(Turing Test)를 통과했음을 보여준다고 말했다.

최근 수년간 챗GPT 같은 AI 도구가 발전하면서 AI를 이용한 과제나 시험 부정행위 우려가 커지고 있으나 AI 생성 텍스트를 감지하는 도구는 지금까지 그다지 성공적이지 못한 것으로 드러나고 있다고 연구팀은 지적했다.

연구팀은 이 연구에서 심리학 학사 학위 취득을 위한 5개 학부 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했다. 채점자들은 이 연구에 대해 모르는 상태에서 실험이 진행됐다.

시험에서 AI 점수 중간값보다 높은 점수를 받은 학생 비율 [PLoS ONE / Peter Scarfe et al. 제공. 재판매 및 DB 금지]

그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

AI가 작성한 답안과 실제 학생 답안을 무작위로 선택해 비교할 경우 AI 답안이 점수가 높을 확률이 83.4%에 달했다.

또 실제 학생이 AI 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했고, 에세이 시험 중 1개에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘었다.

연구팀은 이 결과는 학생들이 부정행위에 AI를 사용할 수 있고 이들이 다른 학생보다 더 좋은 성적을 받을 가능성을 시사한다며 연구 과정에서 실제 학생 중 상당수가 AI 생성 제출물을 통해 부정행위를 했을 가능성도 고려하고 있다고 말했다.

이어 이 결과는 AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다며 전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 더 많은 노력을 기울여야 한다고 강조했다.

◆ 출처 : PLoS ONE, Peter Scarfe et al., 'A real-world test of artificial intelligence infiltration of a university examinations system: A "Turing Test" case study', https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

scitech@yna.co.kr

▶제보는 카톡 okjebo

사회

"AI 답안, 대학 학부시험서 적발 안되고 점수 사람보다 높아"