업그레이드할수록 챗GPT는 수학 바보
다른 부분의 성능 떨어진 듯”
작년 말 등장한 오픈AI의 인공지능(AI) 챗봇인 챗GPT는 사용자 질문에 막힘없이 답하고, 지시에 따라 새 글을 써주고 그림을 그려줘 산업계를 놀라게 했다. 하지만 최근 챗GPT 성능이 종전보다 떨어졌다는 분석이 나오고 있다. 특히 기초적인 수학 능력에서 성능 저하가 두드러진 것으로 나타났다.
미국 스탠퍼드대와 캘리포니아대 버클리(UC버클리) 공동 연구팀은 최근 논문 사전 출판 사이트 ‘아카이브’에 챗GPT-3.5와 이보다 개선된 챗GPT-4의 성능을 비교한 연구 결과를 발표했다. 오픈AI의 챗GPT-3.5는 무료이고, 챗GPT-4는 유료 버전이다. 기본적으로 챗GPT-4가 챗GPT-3.5보다 고성능이다.
연구팀은 지난 3월과 6월 수학 문제 풀기와 민감한 질문에 답하기, 미국 의료 면허 시험, 코드 생성, 시각적 추론 등 8가지 항목에 대해 챗GPT-3.5와 챗GPT-4의 성능을 각각 평가했다. 결과는 의외였다. 챗GPT-4는 8가지 항목 중 6가지에서 3월보다 6월 성능이 떨어졌다. 특히 숫자가 소수(素數)인지 구별하는 질문은 정확도가 84%에서 51.1%로 하락했다. 코드 생성 정확도도 3개월 새 52%에서 10%로 급락했다.
반면 GPT-3.5는 6월 테스트에서 시각적 추론, 미국 의료 면허 시험 분야 등 6개 항목이 지난 3월보다 개선됐다. 특히 소수 구별, 설문 분석, 민감한 질문 등 4개 항목에서는 GPT-4보다도 좋은 성능을 보였다. 최근 테크 업계에선 챗GPT-3.5가 챗GPT-4보다 성능이 좋다는 이야기가 나오는데 숫자로 확인된 것이다.
테크 업계에선 오픈AI 측이 챗봇 성능 개선을 진행하며 오류가 발생했고 성능이 오히려 나빠진 것으로 본다. 월스트리트저널은 “복잡한 AI 모델의 한 부분을 개선하려고 시도하면서 다른 부분의 성능이 저하된 것으로 보인다”고 했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- ‘북한강 시신 유기’ 양광준 동문 “동상 걸린 후배 챙겨주던 사람…경악”
- 권익위 “尹정부 전반기 26만명 집단 민원 해결”
- 수험표 배달에 수험생 수송까지...“콜택시냐” 경찰 내부 불만 나왔다
- Trump team plans to end EV tax credit, potentially hurting Korean automakers
- ‘해리스 지지’ 유명 배우 “미국 디스토피아, 떠나겠다”
- 내년 아파트 공시가격도 시세 변동만 반영...현실화율 69% 동결
- 野 ‘이재명 무죄’ 법원 총집결에... 한동훈 “뻔뻔함 수준 넘어, 나라 망가뜨려”
- 제주서 불법 숙박업 혐의, 문다혜 검찰 송치
- ‘한동훈’ 이름으로 尹 비난 글 올린 작성자, 유튜버에 고발당해
- “노숙자 시절, 책 선물해준 은인 찾아요”… 베스트셀러 작가의 사연