챗GPT에 ‘대학 시험지’ 풀게 했더니···‘경악’할만한 결과 나왔다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 인공지능(AI) 챗GPT-4로 생성한 답안이 실제 대학교 시험에서 학생들이 직접 작성해 제출한 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다.
그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
생성형 인공지능(AI) 챗GPT-4로 생성한 답안이 실제 대학교 시험에서 학생들이 직접 작성해 제출한 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다. 답안의 94%는 채점자에게 적발되지 않았다. AI 도구 사용이 대중화되면서 교육과 평가 시스템에 대책 마련이 필요하다는 지적이 나온다.
27일(현지시간) 영국 레딩대 심리·임상언어과학대학 피터 스카프 교수팀은 과학 저널 플로스 ONE에서 이 대학 실제 학부 시험에 AI 작성 답안을 제출하는 엄격한 블라인드 방식 실험에서 이런 결과를 얻었다고 밝혔다.
연구팀은 “이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험”이라며 “이 결과는 AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 튜링 테스트를 통과했음을 보여준다”고 했다.
연구팀은 이 연구에서 심리학 학사 학위 취득을 위한 5개 학부 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했다. 채점자들은 이 연구에 대해 모르는 상태에서 실험이 진행됐다.
그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.
AI가 작성한 답안과 실제 학생 답안을 무작위로 선택해 비교할 경우 AI 답안이 점수가 높을 확률이 83.4%에 달했다.
또 실제 학생이 AI 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했고, 에세이 시험 중 1개에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘었다.
연구팀은 “이 결과는 학생들이 부정행위에 AI를 사용할 수 있고 이들이 다른 학생보다 더 좋은 성적을 받을 가능성을 시사한다”며 “연구 과정에서 실제 학생 중 상당수가 AI 생성 제출물을 통해 부정행위를 했을 가능성도 고려하고 있다”고 했다.
그러면서 “AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다”며 “전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 더 많은 노력을 기울여야 한다”고 강조했다.
남윤정 기자 yjnam@sedaily.comCopyright © 서울경제. 무단전재 및 재배포 금지.
- 허웅 前여친, 이선균 협박女와 같은 업소 출신이라는데…“결혼 언급 없었다”
- 대만서 가장 예쁜 지자체장, 日서 성추행 당하자 한 행동…日·대만이 ‘발칵’
- “단월드 연관·음원 사재기 의혹 사실 아니다”…BTS측 법적대응 예고
- '최태원 회장 동거인 김희영 첫 인터뷰 기사는 오보 유감, 사실과 달라”
- ‘아동 학대’로 체포된 보육교사…얼굴 공개되자 난리났다, 대체 왜?
- '대만판 n번방'…미성년자 불법영상까지 사고 판 '창의사방'
- '컷오프' 與 김재원 이의신청 수용…'나경원에 보답할 때'
- 엔달러 환율 161엔 돌파…美토론 '트럼프 우세'도 영향?
- '나이키도 이제 한물 갔나요?'…'유행 지났다 소리 듣겠네'
- '공수처 소환' 장시호 '검사가 증언 연습 시킨 적 없다'