챗GPT 더 강력해지나… SAT 시험 상위 10% 수준 ‘GPT-4′ 전격 출시

오픈AI가 공개한 GPT4의 실제 사용 모습. 챗GPT보다 나은 결과물을 만들어 낸다. /오픈AI

인공지능 챗봇인 챗GPT 열풍을 일으킨 오픈AI가 새로운 대규모 AI 언어모델(LLM)인 GPT-4를 공개했다. 챗GPT에 적용된 GPT-3.5의 업그레이드 버전이다.

오픈AI는 15일(한국시각) GPT-4를 전격 공개했다. 오픈AI는 GPT-4를 공개하면서 많은 전문적인 시험에서 GPT-4가 인간 수준의 능력을 보여줬다고 설명했다. 샘 알트만 오픈AI 최고경영자(CEO)는 트위터에서 “GPT-4는 가장 뛰어나고 정리가 잘 된 모델”이라며 홍보하기도 했따.

구체적으로 GPT-4는 미국 모의 변호사 시험에서 90번째 백분위수를 기록했고 미국의 대학 입학 자격시험인 SAT 읽기와 수학에서는 각각 93번째와 89번째 백분위수를 기록했다. 인간으로 치면 상위 10% 수준의 학습 능력을 보여줬다는 것이다.

오픈AI는 GPT-4가 허용되지 않은 콘텐츠 요청에 응답할 가능성이 82% 줄었다고 설명했다. 사실을 바탕으로 대답하는 비율도 GPT-3.5보다 40% 정도 높아졌다고 덧붙였다. 챗GPT는 엉뚱한 대답을 사실인 것처럼 내놔서 논란이 된 경우가 많았는데 그런 문제를 확 줄였다는 것이다.

기존 GPT-3.5와 달리 이미지도 텍스트로 인식하는 것도 특징이다. 텍스트로 대화를 진행하다 이미지를 입력해도 자연스럽게 대화가 이어진다는 것이다.

오픈AI는 “일상적인 대화에서는 GPT-3.5와 큰 차이가 없을 수 있지만, 훨씬 더 신뢰할 수 있고 미묘한 명령을 처리할 수 있게 됐다”고 설명했다.

전문가들의 평가도 비슷하다. 하정우 네이버 AI연구소장은 GPT-4 공개 이후 자신의 소셜미디어에 올린 글에서 “전문지식류에서 정말 대단한 성능향상이 있다”며 “B2B 향으로 (만들어져) 지갑을 제대로 열게 할 쓸만한 물건을 만들어낸 느낌”이라고 평가했다.

다만 구체적인 GPT-4의 디테일은 공개되지 않았다. 오픈AI가 공개한 테크니컬 블로그에도 GPT-4에 쓰인 매개변수 등은 나오지 않는다. LLM은 매개변수의 크기에 따라 성능이 달라지기 때문에 많은 관심을 모은다. GPT-3는 1750억개의 매개변수를 사용했다.

오픈AI는 GPT-4를 실무에 바로 사용할 수 있게 한다면서도 만능은 아니라고 덧붙였다. 오픈AI는 “새로운 소프트웨어는 아직 완벽하지 않으며 많은 시나리오에서 인간보다 능력이 떨어진다”며 “여전히 ‘환상’을 갖고 답을 지어내며 틀렸을 때에도 옳다고 주장하는 경향도 있다”고 밝혔다.

조선비즈

IT/과학

챗GPT 더 강력해지나… SAT 시험 상위 10% 수준 ‘GPT-4′ 전격 출시