의사·변호사 시험 통과한 챗GPT, 회계학에선 "대학생보다 못해"

미국 브리검영대

대화형 인공지능(AI) 프로그램 챗GPT가 회계 분야 시험에서 인간보다 낮은 성적을 받은 것으로 나타났다. 회계학을 전공하는 대학생의 절반 수준으로 점수를 내는 데 그쳤다.

미국 브리검영대는 데이비드 우드 회계학과 교수 연구팀이 이 같은 내용을 담은 연구결과를 국제학술지 ‘회계교육의 과제’에 최근 발표했다고 19일(현지시간) 밝혔다.

통상 챗GPT는 다양한 분야에서 인간보다 뛰어난 능력을 가진 것으로 알려졌다. 백분위 90%대에 해당하는 점수로 미국 변호사 시험에 합격한 사례가 대표적이다. 미국 AP시험 15개 중 13개를 통과했고 GRE 회화 시험에선 거의 완벽한 점수를 따내기도 했다.

연구팀은 회계 분야에서도 챗GPT가 우수한 성적을 거두는지 확인하기 위해 실험을 실시했다. 14개국의 186개 교육기관에 종사하는 327명에게 시험 문제를 출제하도록 했다.

브리검영대 회계학과 학부생들 중 일부와 챗GPT는 같은 시험 문제를 풀었다. 회계정보시스템(AIS), 감사, 재무회계, 경영회계, 세무 각 분야에서 골고루 문제가 출제됐다. 문제 유형은 객관식과 단답식으로 구성됐다.

시험 결과 챗GPT의 정답률은 47.4%로 학생 평균 76.7%에 못 미쳤다. 챗GPT는 AIS와 감사 분야에서 우수한 성적을 냈지만 세금, 재무, 관리평가에서 점수가 학생들보다 낮았다. 연구팀은 "수학적인 사고를 요구하는 과정에서 챗GPT가 어려움을 겪었기 때문으로 분석된다"고 말했다.

문항 유형별로 보면 챗GPT는 OX문제와 객관식에서 정답률이 각각 68.7%, 59.5%로 비교적 높은 성적을 받았다. 반면 단답형 문항 정답률은 28.7~39.1%에 그치며 부진했다.

이번 연구에서는 챗GPT의 뜻밖의 실수도 발견됐다. 뺄셈 문제인데도 숫자 두 개를 더하거나 숫자를 나누는 오류를 범한 것이다. 또 설명은 정확하게 하면서도 잘못된 정답을 선택하는 경우도 있었다.

연구팀은 다만 챗GPT가 향후 회계 분야에서 활약할 것이라 내다봤다. 연구팀은 "과제를 설계하고 테스트하는 능력을 포함해 교육과정을 개선하거나 프로젝트 초안을 작성하는 데 챗GPT가 능력을 발휘할 수 있을 것으로 보인다"고 말했다.

[박정연 기자 hesse@donga.com]

동아사이언스

IT/과학

의사·변호사 시험 통과한 챗GPT, 회계학에선 "대학생보다 못해"