업그레이드할수록 챗GPT는 수학 바보

유지한 기자 2023. 8. 10. 03:00
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

WSJ “AI의 한 부분 개선하면서
다른 부분의 성능 떨어진 듯”
그래픽=이진영

작년 말 등장한 오픈AI의 인공지능(AI) 챗봇인 챗GPT는 사용자 질문에 막힘없이 답하고, 지시에 따라 새 글을 써주고 그림을 그려줘 산업계를 놀라게 했다. 하지만 최근 챗GPT 성능이 종전보다 떨어졌다는 분석이 나오고 있다. 특히 기초적인 수학 능력에서 성능 저하가 두드러진 것으로 나타났다.

미국 스탠퍼드대와 캘리포니아대 버클리(UC버클리) 공동 연구팀은 최근 논문 사전 출판 사이트 ‘아카이브’에 챗GPT-3.5와 이보다 개선된 챗GPT-4의 성능을 비교한 연구 결과를 발표했다. 오픈AI의 챗GPT-3.5는 무료이고, 챗GPT-4는 유료 버전이다. 기본적으로 챗GPT-4가 챗GPT-3.5보다 고성능이다.

연구팀은 지난 3월과 6월 수학 문제 풀기와 민감한 질문에 답하기, 미국 의료 면허 시험, 코드 생성, 시각적 추론 등 8가지 항목에 대해 챗GPT-3.5와 챗GPT-4의 성능을 각각 평가했다. 결과는 의외였다. 챗GPT-4는 8가지 항목 중 6가지에서 3월보다 6월 성능이 떨어졌다. 특히 숫자가 소수(素數)인지 구별하는 질문은 정확도가 84%에서 51.1%로 하락했다. 코드 생성 정확도도 3개월 새 52%에서 10%로 급락했다.

반면 GPT-3.5는 6월 테스트에서 시각적 추론, 미국 의료 면허 시험 분야 등 6개 항목이 지난 3월보다 개선됐다. 특히 소수 구별, 설문 분석, 민감한 질문 등 4개 항목에서는 GPT-4보다도 좋은 성능을 보였다. 최근 테크 업계에선 챗GPT-3.5가 챗GPT-4보다 성능이 좋다는 이야기가 나오는데 숫자로 확인된 것이다.

테크 업계에선 오픈AI 측이 챗봇 성능 개선을 진행하며 오류가 발생했고 성능이 오히려 나빠진 것으로 본다. 월스트리트저널은 “복잡한 AI 모델의 한 부분을 개선하려고 시도하면서 다른 부분의 성능이 저하된 것으로 보인다”고 했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?