SAT 수학 상위 11%인데… 사칙연산은 오답

오픈AI GPT-4 공개
GPT-4 한번에 2.5만개 단어 활용
MS 애저 '벤치마크 번역' 테스트
전세계 26개언어 높은 성능 보여
최신정보 깜깜·한국어 아직 미흡

이미지로 재료를 보여주고 무엇을 만들 수 있는지 묻자 GPT-4가 답변으로 요리들을 제시하고 있다. <출처:오픈AI 홈페이지>

오픈AI가 챗GPT에 이어 GPT-4를 공개하면서 AI(인공지능)가 또 한번의 진화를 이뤄냈다. GPT-4는 MS(마이크로소프트)와 맺은 파트너십의 연장선상으로, AI 일상화와 산업화를 염두에 두고 성능과 가성비 개선에 초점을 둔 것으로 분석된다.

오픈AI가 14일(현지시간) 출시한 새로운 LLM(거대언어모델) 'GPT-4'는 챗GPT에 적용된 GPT-3.5의 후속모델이다. 현재 챗GPT 플러스(유료버전)를 통해 이용 가능하며, API(응용프로그램인터페이스)를 활용하려면 대기명단에 이름을 올려야 한다.

◇똑똑해진 GPT, 멀티모달도 기대감= 오픈AI는 GPT-4가 미국 모의 변호사 시험에서 상위 10%, 대학입학 자격시험인 SAT의 경우 읽기 과목 상위 7%, 수학 과목 상위 11%의 성적을 거뒀다고 밝혔다. 신데렐라 이야기를 각 단어의 시작이 A부터 Z까지 순서대로 하나씩 나오도록 하면서 요약하라는 요구에도 응하는 수준이다. 여기에 조향성도 갖춰 이용자의 글쓰기 스타일을 학습하거나 특정 문체를 흉내 내는 것도 가능하다. 텍스트 생성과 함께 추론 능력도 크게 높아졌다는 게 회사 측의 설명이다.

한 번에 처리 가능한 단어 수도 2만5000개로 대폭 늘어 보다 다양하게 활용할 수 있게 됐다. 토큰 수도 GPT-3.5의 약 8000개에서 GPT-4는 3만2768개로 대폭 늘어 사용자가 입력한 것을 더 잘 기억한다.

꾸준히 지적돼온 할루시네이션(거짓말) 문제에 대해서도 내부 평가 결과 GPT-4가 GPT-3.5보다 40% 높은 점수를 받았다. 허용되지 않는 콘텐츠 요청에 대한 응답 경향도 82% 줄였다. 사전에 훈련 성과를 정확하게 예측할 수 있었던 최초의 대형모델이라는 게 오픈AI의 자체 평가다.

가장 크게 달라진 것은 여러 데이터 형태를 인식하는 멀티모달 AI모델이란 점이다. 프롬프트(제시어)에서 기존 텍스트뿐 아니라 이미지 인식도 지원, 원하는 답변을 위해 텍스트와 이미지를 함께 입력할 수도 있다. 답변 등 결과물 출력은 아직 텍스트로만 제공한다. 이미지 입력 기능은 아직 리서치 프리뷰라 사용이 제한됐다. 앞서 세간의 예측과 달리 비디오 기능은 포함되지 않았다.

◇한국어 실력도 늘었지만 한계도 보여= GPT-4의 또 다른 차이점은 영어 외 언어 지원이 강화된 것이다. 오픈AI가 MS(마이크로소프트) 애저 번역을 활용한 MMLU(대규모 다중작업 언어이해) 벤치마크 번역 테스트를 실시한 결과, GPT-4는 전세계 26개 언어 중 한국어를 포함한 24개 언어에서 높은 성능을 보였다. 기존 GPT-3.5뿐 아니라 구글 '팜(PaLM)'과 딥마인드 '친칠라(Chinchilla)' 등 경쟁사 LLM에 비해서도 우위를 보였다는 설명이다.

GPT-4의 파라미터(매개변수) 수는 공개되지 않았다. 오픈AI는 다만 지난 2년간 딥러닝 스택 전반을 재설계하고 MS와 함께 슈퍼컴퓨터를 공동 설계했으며, 지난해 선보인 GPT-3.5는 그 테스트의 일환으로 내놓은 것이라고 설명했다. 그러면서 GPT-4의 경우 확장성 확보에 주력, 동일한 방법론을 사용하면서도 훨씬 적은 연산량으로 예측 가능하도록 했다고 밝혔다.

하지만 회사는 여전히 GPT-4를 완전히 신뢰할 수 없다는 점을 강조하며 사용자 주의를 당부했다. GPT-4 역시 학습데이터 문제로 2021년 9월 이후 발생한 일에 대해서는 정보가 부족하다는 점이 챗GPT와 마찬가지기다. 또한 여전히 간단한 사칙연산도 틀리는 등 기존 챗GPT의 약점을 극복하지 못했다. 그렇지만 향상된 성능과 효율성, 멀티모달 기능이 가져올 파괴력은 충분히 크다는 게 전문가들의 평가다. 장병탁 서울대 AI연구원장은 "오픈AI가 확장성과 안정성에 초점을 맞추고 상당한 기술 보완을 한 것으로 보인다"면서 "향후 멀티모달 모델로 본격적으로 활용된다면 AI모델의 이해가 보다 넓어질 수 있다는 점에서 의미가 있다"고 말했다.팽동현기자 dhp@dt.co.kr

디지털타임스

IT/과학

SAT 수학 상위 11%인데… 사칙연산은 오답