"수능 문제 풀이 능력으로 ChatGPT의 성능 향상 확인 가능"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
최근 OpenAI에서 공개한 ChatGPT는 국내 직장인 10명중 8명이 사용한다고 응답했을 정도로 매우 큰 주목을 받으며 인공지능의 발전을 이끌고 있다.
그 중에서도 가장 최신 버전인 ChatGPT 4.0 버전에 대해 기존의 ChatGPT 3.5 모델 대비 정량적으로 성능 향상이 어떻게 이루어졌는지 비교 분석한 연구 결과가 있어 눈길을 모은다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
최근 OpenAI에서 공개한 ChatGPT는 국내 직장인 10명중 8명이 사용한다고 응답했을 정도로 매우 큰 주목을 받으며 인공지능의 발전을 이끌고 있다. 그 중에서도 가장 최신 버전인 ChatGPT 4.0 버전에 대해 기존의 ChatGPT 3.5 모델 대비 정량적으로 성능 향상이 어떻게 이루어졌는지 비교 분석한 연구 결과가 있어 눈길을 모은다.
공인 SW 시험기관인 주식회사 애나 이상호 CTO(최고기술책임자) 연구팀과 연세대학교 김시호 교수 STL(Seamless Transportation Lab)은 공동 연구를 통해 2023년 대학수학능력시험(이하 수능)의 각 영역별 요구 능력의 차이를 토대로 ChatGPT 3.5와 4.0 버전의 성능을 객관적으로 평가하는 데 성공했으며, 2023년과 2024년 수능의 난이도를 ChatGPT 4.0을 활용해 비교하고 부족한 부분을 객관적인 평가 항목을 통해 검증했다.
공동 연구팀에 따르면 첫 번째 실험에서는 국어, 영어, 수학 영역의 정답률을 측정했으며, ChatGPT 4.0은 특히 국어와 수학에서 이전 버전에 비해 뚜렷한 성능 향상을 보이는 것을 확인할 수 있었다. 국어, 영역에서 3.5 버전은 34%의 정답률을 기록했지만, 4.0 버전은 48%로 기존 대비 약 41%의 성능 향상률을 보였다. 수학 영역에서는 3.5 버전이 27%의 정답률을 보여주었던 반면, 4.0 버전은 48%의 정답률을 달성하며 78%의 성능 향상률을 보였다.
두 번째 실험에서는 난이도가 높은 것으로 알려진 2024년 수능과 2023년 수능을 비교하여 수능의 난이도 변화를 분석했다. 국어, 영어, 수학 영역을 중심으로 ChatGPT 4.0의 결과를 확인한 결과 국어 영역은 6점 상승, 영어 영역은 9점 하락, 수학 영역은 5점 하락 등 2024년 수능에서는 국어 과목을 제외한 전반적인 과목의 문항이 어려워진 것으로 판단되며, ChatGPT 역시 정답을 찾아내는 데 어려움을 겪었다.
또한 ChatGPT 4.0의 오답 유형을 확인한 결과 문자의 순서 파악, 논리적 전개 파악 등에 어려움을 겪는 것으로 보였으며, 난이도가 높은 문제에서는 정답을 맞혔지만, 상대적으로 쉬운 문제에서도 이해를 하지 못해 오답을 내놓는 현상이 나타났다.
결론적으로 ChatGPT 4.0은 이전 버전인 3.5에 비해 뚜렷한 성능 향상을 보이며 최근 LLM 기술의 급격한 발전을 증명하고 있다. 또한 '불수능'이라 불릴 만큼 어려웠던 2024년 수능과의 비교를 통해 수능 응시자가 어려움을 겪는 부분이 ChatGPT에게도 어려움을 줬다는 것과, ChatGPT가 특별히 문제를 해결하는 데 어려움을 겪는 영역을 정량적으로 정의하고 평가할 수 있음을 보여줬다.
이러한 연구를 주도한 김시호 교수는 "이번 결과는 ChatGPT와 같은 생성형 인공지능 모델의 성능을 평가하고 객관적인 기준을 제시했다는 데 매우 큰 의의가 있으며, 향후 생성형 인공지능의 객관적인 성능 평가에 활용할 수 있는 평가 메트릭을 개발했다는 데 의미가 있다"며 "현재까지 사람의 주관적인 요소가 개입된 평가 지표(HumanEval)를 대체하고 정량적이고 객관적인 생성형 모델의 성능 평가가 가능하도록 하는 데 큰 기여를 할 수 있을 것으로 기대된다"고 말했다.
이동오 기자 canon35@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지
- 강경준, 유부녀와 불륜 의혹에 "오해 소지"…아내 장신영 반응은 - 머니투데이
- 이승연, 친엄마 못 알아본 父에…"여자를 많이 만나서" 일침 - 머니투데이
- 아내 '성인방송' 강요한 그 남편, 아내 친구에게도 "동영상 찍자" - 머니투데이
- 양희은·양희경 자매, 모친상…"이렇게 갈 줄 몰랐는데, 안녕 엄마" - 머니투데이
- '47세' 백지영, 치매 전 단계 경도인지장애 의심…"눈물날 뻔" - 머니투데이
- 골프채 맞아 안면골절→활동 중단한 남자 아이돌…손배소 승소 - 머니투데이
- "나 강남 근무한 교장이야"…교장실 '와인파티' 강요, 폭언도 퍼부어 - 머니투데이
- 아내 암 보험금으로 차 구입한 남편…따졌더니 "내가 돈 내줬잖아" - 머니투데이
- 양동근, 미국 교도소 간 근황…"카녜이 웨스트 같다" 눈물의 기립박수 - 머니투데이
- 검찰, '경기도 법카 유용' 이재명 기소…김혜경은 기소유예 - 머니투데이