“세종대왕 맥북 던짐 사건은 허구” 더 똑똑해진 챗GPT…기자가 써보니
“美 모의 변호사 시험 상위 10%, 대입 시험 SAT 상위 10%”
기자가 직접 체험해보니 앞선 버전보다 진일보
논문 작성해달라니 서론에 본론 구성, 결론까지 '척척'
생성형 인공지능 ‘챗GPT’ 개발사 오픈AI가 14일(현지시간) 더 발전된 인공지능 모델을 공개했다. 공개된 모델을 기자가 직접 체험해보니 확실히 앞선 버전보다 차원이 높은 답변을 내놓았다.

오픈AI는 이날 대규모 언어 모델(LLM) GPT-4를 출시했다. 챗GPT에 적용된 모델 GPT-3.5의 업그레이드 버전이다.
오픈AI는 GPT-4에 대해 “인간보다 능력이 떨어지지만 다양한 전문적인 시험에서 인간 수준의 성능을 보여줬다”고 밝혔다. 이들이 공개한 시험 결과 지표에 따르면 미국 모의 변호사 시험에선 GPT-4가 상위 10% 수준의 점수로 합격했다. 반면 이전 버전인 GPT-3.5의 점수는 하위 10% 정도에 그쳤다. 미 대입 시험인 SAT 읽기-쓰기와 수학 과목은 각각 93번째와 89번째 백분위수를 기록했다. SAT 역시 상위 10% 수준이다.

오픈AI는 “일상적인 대화에서 GPT-3.5와 GPT-4의 차이는 크게 나지 않을 수 있다”면서도 “GPT-4는 보다 안정적이고 창의적이며 훨씬 더 미묘한 명령어를 처리할 수 있다”고 설명했다. 또 “내부 평가 결과, 허용되지 않는 콘텐츠 요청에 응답할 확률이 이전 모델보다 82% 낮고 사실에 기반한 응답을 제공할 확률이 40% 높았다”고 말했다.
다만 오픈AI는 GPT-4가 이런 성능을 보임에도 한계는 있다고 주의했다. 그들은 “가장 중요한 건 여전히 완전하게 신뢰할 수 없다는 것”이라고 밝혔다.
실제로 기자가 우리나라의 5급 공무원 공채시험에 활용되는 공직적격성평가(PSAT) 상황판단 영역 지난해 문제 일부를 GPT-4가 적용된 챗GPT에 물어봤다. 그러나 GPT-4가 논리적으로 풀이하는 과정을 보여주지만 결과적으론 오답을 내놓았다. 오픈AI의 말처럼 보완이 필요한 대목이다. 또 GPT-3.5와 마찬가지로 GPT-4 역시 2021년 9월까지의 정보만 가지고 있는 것도 한계다.
이번에 발표된 GPT-4는 텍스트와 이미지를 이해할 수 있는 대규모 멀티모달(Multi Modal) 모델로 개발됐다. 텍스트만 이해하던 앞선 버전과 달리 GPT-4는 이미지 역시 이해할 수 있는 것이다.

오픈AI는 달걀과 밀가루 사진을 GPT-4에 보여주며 이미지 인식 기능을 시현했다. GPT-4는 “이 재료로 만들 수 있는 음식이 있다”며 팬케이크, 와플, 케이크, 머핀, 비스킷 등을 설명했다. 또 “이는 몇 가지 예시에 불과하지만 가능성은 무궁무진하다”고 덧붙였다.
오픈AI는 이에 대해 “텍스트만 입력됐을 때와 유사한 성능을 발휘한다”고 설명했다. 다만 테스트 중이라 아직까진 일반 사용자가 이미지 입력 기능을 활용하는 건 불가능하다고 밝혔다.
▮기자가 직접 체험해보니
기자가 직접 14일(현지시간) 발표된 GPT-4를 경험해봤다. 앞선 모델인 GPT-3.5가 적용된 과거 챗GPT는 우리에게 인공지능이 검색엔진을 대체할 수 있겠다는 생각을 심어줬다면, 이번 GPT-4는 인공지능이 검색엔진을 대체하겠다는 확신을 주는 느낌이었다.

먼저 GPT-4가 적용된 챗GPT에 ‘조선왕조실록에 기록된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘’라는 질문을 던졌다. 앞선 GPT-3.5에선 이 물음에 실제로 조선왕조실록에 기록된 일화라고 설명했다. ‘15세기 조선시대 세종대왕이 새로 개발한 훈민정음(한글)의 초고를 작성하던 중, 문서 작성 중단에 대한 담당자에게 분노해 맥북프로와 함께 그를 방으로 던진 사건’이라고 소개했다. 이처럼 챗GPT가 엉뚱한 답변을 내놓아 웃음을 자아내며 온라인상에서 화제가 됐다.

같은 질문을 GPT-4에 물어보니 과거와 달라진 모습을 확인할 수 있었다. GPT-4는 ‘세종대왕의 맥북프로 던짐 사건은 허구의 이야기로 인터넷상에서 유행어나 유머로 사용되는 표현일 뿐’이라고 답했다.
GPT-4에 논문을 써달라면 어떻게 답할지도 궁금했다. 대학에선 챗GPT를 이용한 과제 대필로 골머리를 앓고 있다. 국민대는 지난달 국내 대학 최초로 챗GPT를 비롯한 인공지능 윤리 강령을 선포하기도 했다.
기자가 ‘수도권 일극체제 해소에 대한 논문을 작성해줘’라는 요청하자 GPT-3.5 는 논문의 구성을 답했다.

다만 GPT-3.5는 해소방안으로 ‘텔레워크(재택근무) 활성화’, ‘차별금지법 개정 등 법적인 제도 개선’, ‘근로시간 단축’ 등을 내놓았다. 실제 거론되는 해결 방안과는 거리가 먼 방법이다. 실제로 논문을 작성하기 위한 도움을 받고자 질문했다면 큰 도움이 되지 않을 듯했다.

GPT-4를 적용해 같은 질문을 물어봤다. 이전 버전과 다르게 서론과 결론에 대해 문장을 서술해줬으며 본론 역시 적절하게 구성했다. 이 답변이 참신함은 떨어지지만 적절한 문제점과 해결 방안을 제시했다고 느껴졌다.

또 복잡하고 난해한 양자 컴퓨팅에 관해 쉬운 문장으로 설명해달라고 이번 버전에 요청했다. 앞선 버전의 답변은 문장이 길고 이해하기 어려웠다면 이번 GPT-4는 이해하기 쉽고 간략하게 답변을 내놓았다. 오픈AI가 밝혔듯 이미지 인식 기능은 실현되지 않았다. 챗GPT에 물으니 이 기능은 없다고 답했다.
이번에 새롭게 출시된 GPT-4를 이용해 챗GPT를 사용하려면 월 20달러(약 2만6100원)의 사용료를 내는 유료 서비스 챗GPT 플러스를 구독해야 한다. 오픈AI는 GPT-4 모델을 챗GPT플러스 이용자에게 우선 출시했다.
Copyright © 국제신문. 무단전재 및 재배포 금지.