눈과 귀 트인 옴니모델 `GPT-4o` 등장…오픈AI, 멀티모달 새 지평 열다

팽동현 2024. 5. 14. 09:06
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

미라 무라티 오픈AI CTO가 13일(현지시간) 온라인 이벤트를 통해 새로운 옴니모델 GPT-4o를 소개하고 있다. 화면 캡처
GPT-o 라이브 데모 시연 모습. 화면 캡처
GPT-4o 벤치마크 테스트 결과. 홈페이지 캡처
챗GPT4o에게 다른 음성지능 대비 강점을 묻자 돌아온 답변. 팽동현 기자

생성형AI 선두주자가 텍스트, 비전, 오디오를 아우르는 멀티모달 모델의 새 지평을 열었다. 이젠 사람들 사이 일상처럼 말을 끊거나 끼어들어도, 또는 PC 화면이나 스마트폰 카메라로 함께 뭔가를 보면서도 챗GPT와 실시간으로 음성대화를 이어가며 도움을 얻을 수 있다.

오픈AI는 13일(현지시간) GPT-4와 챗GPT의 '봄 업데이트' 공개 및 시연을 위한 온라인 이벤트를 개최, 새로운 플래그십 모델인 'GPT-4o(포오)'를 선보였다. o는 옴니(omni)의 약자로, 텍스트·비전·오디오의 통합 모델을 의미한다.

이날 발표를 맡은 미라 무라티 오픈AI CTO(최고기술책임자)는 "GPT-4o의 특별한 점은 무료 사용자를 포함한 모든 사용자에게 GPT-4 수준의 인텔리전스를 제공한다는 것"이라며 "훨씬 더 빠르고 텍스트, 비전, 오디오 전반에 걸쳐 기능이 향상됐다"고 말했다. 또 "사용편의성 측면에서 큰 진전을 이뤘다고 여기는 것은 이번이 처음"이라고도 덧붙였다.

오픈AI는 지난 3월 미국 특허청(USTPO)에 '보이스 엔진(Voice Engine)' 상표를 출원한 바 있다. GPT-4o는 이를 바탕으로 특히 음성을 통한 상호작용에서 새로운 경험을 제공한다. 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)였던 음성 응답 시간을 사람과 유사한 0.2~0.3초 수준으로 줄였다. 또 여러 화자나 배경소음, 노래 및 감정표현 등을 자연스럽게 인식하고 표출한다.

이는 기존에 STT(음성인식)·인텔리전스·TTS(음성합성) 등을 각각 맡은 3종 모델의 결합·조율 방식을 벗어나, 텍스트·비전·오디오에 걸쳐 하나의 모델에 엔드-투-엔드로 훈련시켜 모든 입출력을 동일한 신경망으로 처리하는 방식을 최초로 적용했기 때문이다. 무라티 CTO는 "GPT-4o가 협업의 미래로 패러다임을 전환하고 있다"고 자신했다.

이날 라이브 데모에는 오픈AI의 연구 리드인 마크 첸과 배럿 조프가 참여했다. AI가 말을 할 때까지, 또는 말을 끝낼 때까지 기다릴 필요 없이 GPT-4o는 실시간으로 화자의 음성에 반응했다. 아울러 오디오와 비전 기능 결합으로 협업이 어떻게 이뤄질 수 있는지도 시연했다.

시연자가 '지금 시연 중이라 긴장된다'고 하자 GPT-4o는 심호흡을 권했고, 일부러 과하게 헐떡이자 '당신은 진공청소기가 아니다'고 핀잔을 주는 모습도 보였다. 또 '잠들지 못하는 친구를 위해 로봇이 사랑에 빠진 이야기를 들려 달라'고 하고서 중간에 여럿이 끼어들어 '감정을 더 실어 달라' '로봇 목소리로 바꿔줘' '노래하는 식으로 해라' 등 요청을 해도 즉각 반영했다.

또한 시연자가 스마트폰 카메라를 통해 종이에 적힌 수학 문제를 보여주면서 '답은 알려주지 말고 푸는 걸 도와 달라'고 하자, 종이에 쓰는 풀이과정을 시각적으로 인식해 각 단계에 맞는 조언을 해줬다. 이날 함께 공개된 챗GPT 데스크톱 버전을 통해 PC에서 코딩 중인 화면을 공유하고 해당 내용과 특정 함수를 뺄 때 영향을 묻자 음성으로 설명을 이어가기도 했다. 이밖에 실시간 다국어 통역 역할도 가능한 것을 보여줬다.

여러 벤치마크 테스트에서 GPT-4o는 지난해 11월 출시된 'GPT-4 터보'와 동급 이상의 성능을 보여줬다. 제로샷 COT MMLU에선 88.7점으로 새로운 최고기록을 냈다. 비영어권 언어 성능과 토큰 효율도 개선됐으며, 여기엔 한국어도 포함된다. 예를 들어 '안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!' 문장에 기존에는 토큰 45개가 쓰였는데 27개로 줄어드는 등 70%가량 개선됐다는 게 회사의 설명이다.

오픈AI는 GPT-4o를 챗GPT와 GPT스토어뿐 아니라 이를 기반으로 AI 애플리케이션을 개발할 수 있도록 API(응용프로그램인터페이스)도 지원한다. 회사에 따르면 GPT-4 터보 대비 2배 빠르고, 50% 저렴하며, 5배 높은 호출한도를 제공한다.

오픈AI는 앞으로 수주에 걸쳐 챗GPT 플러스(유료버전)에 GPT-4o가 포함된 새로운 버전의 음성모드를 알파버전으로 출시할 예정이다. 또한 일부 파트너들부터 GPT-4o의 새로운 오디오 및 비디오 기능에 대한 지원을 API에서 시작할 계획이다.

무라티 CTO는 "데모를 보다시피 정말 마법 같은 느낌이다. 이런 훌륭한 기술에 대해 미신적 요소를 제거하고 이용자들이 직접 써볼 수 있도록 소개한다"며 "조만간 다음 큰 프로젝트에 대한 진행상황도 업데이트 예정"이라고 밝혔다.팽동현기자 dhp@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?