"수능 문제 풀이 능력으로 ChatGPT의 성능 향상 확인 가능"

이동오 기자 2024. 1. 4. 16:22
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

최근 OpenAI에서 공개한 ChatGPT는 국내 직장인 10명중 8명이 사용한다고 응답했을 정도로 매우 큰 주목을 받으며 인공지능의 발전을 이끌고 있다.

그 중에서도 가장 최신 버전인 ChatGPT 4.0 버전에 대해 기존의 ChatGPT 3.5 모델 대비 정량적으로 성능 향상이 어떻게 이루어졌는지 비교 분석한 연구 결과가 있어 눈길을 모은다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

주식회사 애나 이상호 CTO 연구팀과 연세대학교 김시호 교수 STL 공동 연구 통해 검증

최근 OpenAI에서 공개한 ChatGPT는 국내 직장인 10명중 8명이 사용한다고 응답했을 정도로 매우 큰 주목을 받으며 인공지능의 발전을 이끌고 있다. 그 중에서도 가장 최신 버전인 ChatGPT 4.0 버전에 대해 기존의 ChatGPT 3.5 모델 대비 정량적으로 성능 향상이 어떻게 이루어졌는지 비교 분석한 연구 결과가 있어 눈길을 모은다.

사진제공=애나

공인 SW 시험기관인 주식회사 애나 이상호 CTO(최고기술책임자) 연구팀과 연세대학교 김시호 교수 STL(Seamless Transportation Lab)은 공동 연구를 통해 2023년 대학수학능력시험(이하 수능)의 각 영역별 요구 능력의 차이를 토대로 ChatGPT 3.5와 4.0 버전의 성능을 객관적으로 평가하는 데 성공했으며, 2023년과 2024년 수능의 난이도를 ChatGPT 4.0을 활용해 비교하고 부족한 부분을 객관적인 평가 항목을 통해 검증했다.

공동 연구팀에 따르면 첫 번째 실험에서는 국어, 영어, 수학 영역의 정답률을 측정했으며, ChatGPT 4.0은 특히 국어와 수학에서 이전 버전에 비해 뚜렷한 성능 향상을 보이는 것을 확인할 수 있었다. 국어, 영역에서 3.5 버전은 34%의 정답률을 기록했지만, 4.0 버전은 48%로 기존 대비 약 41%의 성능 향상률을 보였다. 수학 영역에서는 3.5 버전이 27%의 정답률을 보여주었던 반면, 4.0 버전은 48%의 정답률을 달성하며 78%의 성능 향상률을 보였다.

두 번째 실험에서는 난이도가 높은 것으로 알려진 2024년 수능과 2023년 수능을 비교하여 수능의 난이도 변화를 분석했다. 국어, 영어, 수학 영역을 중심으로 ChatGPT 4.0의 결과를 확인한 결과 국어 영역은 6점 상승, 영어 영역은 9점 하락, 수학 영역은 5점 하락 등 2024년 수능에서는 국어 과목을 제외한 전반적인 과목의 문항이 어려워진 것으로 판단되며, ChatGPT 역시 정답을 찾아내는 데 어려움을 겪었다.

또한 ChatGPT 4.0의 오답 유형을 확인한 결과 문자의 순서 파악, 논리적 전개 파악 등에 어려움을 겪는 것으로 보였으며, 난이도가 높은 문제에서는 정답을 맞혔지만, 상대적으로 쉬운 문제에서도 이해를 하지 못해 오답을 내놓는 현상이 나타났다.

결론적으로 ChatGPT 4.0은 이전 버전인 3.5에 비해 뚜렷한 성능 향상을 보이며 최근 LLM 기술의 급격한 발전을 증명하고 있다. 또한 '불수능'이라 불릴 만큼 어려웠던 2024년 수능과의 비교를 통해 수능 응시자가 어려움을 겪는 부분이 ChatGPT에게도 어려움을 줬다는 것과, ChatGPT가 특별히 문제를 해결하는 데 어려움을 겪는 영역을 정량적으로 정의하고 평가할 수 있음을 보여줬다.

이러한 연구를 주도한 김시호 교수는 "이번 결과는 ChatGPT와 같은 생성형 인공지능 모델의 성능을 평가하고 객관적인 기준을 제시했다는 데 매우 큰 의의가 있으며, 향후 생성형 인공지능의 객관적인 성능 평가에 활용할 수 있는 평가 메트릭을 개발했다는 데 의미가 있다"며 "현재까지 사람의 주관적인 요소가 개입된 평가 지표(HumanEval)를 대체하고 정량적이고 객관적인 생성형 모델의 성능 평가가 가능하도록 하는 데 큰 기여를 할 수 있을 것으로 기대된다"고 말했다.

이동오 기자 canon35@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?