"챗 GPT가 쓴 답안, 안 들켰다…점수도 더 높아"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 인공지능(AI)이 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 83%는 실제 학생의 답안보다 더 높은 점수를 받았다는 연구 결과가 나왔다.
연구팀은 레딩대 심리학 학사 학위 취득을 위한 5개의 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 위장해 제출했다.
실제 학생이 AI 작성 답안의 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
실제 학생 답안보다 평균 점수도 더 높아
[서울=뉴시스]박은영 인턴 기자 = 생성형 인공지능(AI)이 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 83%는 실제 학생의 답안보다 더 높은 점수를 받았다는 연구 결과가 나왔다.
27일(현지시간) 과학 저널 '플로스 원'(PLoS ONE)에 게재된 연구에 따르면, 영국 레딩대 심리·임상언어과학대학 피터 스카프 교수 연구팀은 대학 학부 시험에서 실험한 결과 이같이 나타났다고 밝혔다.
연구팀은 레딩대 심리학 학사 학위 취득을 위한 5개의 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 위장해 제출했다. 채점자들은 연구에 대해 전혀 모르는 상태였다.
그 결과 챗GPT-4가 작성한 답안의 94%가 채점자들에게 적발되지 않았으며, 성적 또한 실제 학생보다 평균적으로 더 높은 것으로 나타났다.
또 AI가 작성한 답안과 실제 학생의 답안을 무작위로 선택해 비교할 때, AI가 작성한 답안이 더 높은 성적을 거둘 확률이 83.4%였다.
실제 학생이 AI 작성 답안의 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했다. 에세이 시험 1개에서만 실제 학생 57.14% 점수가 AI 점수의 중간값을 넘었다.
AI 작성 답안의 점수는 실제 학생의 점수와 비교했을 때 가장 높은 등급을 얻는 경향이 있었고, 특히 성적 분포가 넓게 분산되기보단 높은 등급에 밀집되는 모습이 나타났다.
연구팀은 "이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험"이라며 "이 결과는 AI가 대학 시험에서도 컴퓨터와 인간을 구별해 내는 튜링 테스트를 통과했음을 보여준다"고 말했다.
다만 연구팀은 "학생들이 부정행위에 AI를 악용할 수 있다는 것을 보여준다"며 "AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려된다"고 했다.
이어 "전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 노력해야 한다"고 덧붙였다.
☞공감언론 뉴시스 parkey2001@newsis.com
Copyright © 뉴시스. 무단전재 및 재배포 금지.
- '흡연 논란' 옥주현, 이번엔 목에 장침 꽂아 "흔치 않은 일"
- [단독]'화천 토막 살인' 軍 장교, 살인 후 피해자인척 보이스톡…미귀가 신고 취소 시도
- 죄수복 입은 김정은 철창 안에…스위스에 걸린 광고
- '연봉 7000만원' 전공의 수련수당…필수의료 유입 실효성 의문
- 축구 경기중 날아온 '돼지머리'…발로 찼다가 부러질 뻔(영상)
- 추성훈 "사람 안 믿는다"…왜?
- 한지일, 100억 잃고 기초수급자 "고독사 두려워"
- 윤 "김건희, 악마화 억울함 있지만 국민께 미안함이 더 커"
- 장가현 "전남편 조성민, 베드신 간섭…신음소리도 물어봐"
- 지상렬 "주량? 3일 동안 소주 110병 마셨다"