"인간처럼 보고 듣고 말한다"…오픈AI, 'GPT-4o' 출시(종합)

김상윤 2024. 5. 14. 06:59
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

텍스트·이미지·영상 통합형 멀티모달 모델
영화 'Her'의 AI운영체제 '사만다' 현실화
복잡한 성능 향상보다 사용편의성 극대화
샘 올트먼 “컴퓨터와 대화, 이젠 자연스러워”
구글과 초격차 늘려…끊임없는 AI 지각변동

[뉴욕=이데일리 김상윤 특파원] 2016년 영화 ‘허(Her)’에서 남들을 위해 사랑의 편지를 대신 써주는, 소위 편지작가로 일하는 테오도르(호아킨 피닉스)가 인공지능(AI) 사만다를 만나 사랑에 빠지는 내용을 담고 있다. 아내와 별거하며 외로운 삶을 사는 주인공은 AI비서 사만다와 깊은 이야기까지 나누며 치유를 받고 행복을 나누기도 한다. 거의 이상형에 가까운 사만다에 주인공은 무한한 애정을 품었고, 잃어 버린줄 알았던 미소마저도 돌아온다. 먼 미래의 얘기가 아니다. 생성형 AI 선두주자인 오픈AI가 14일(현지시간) 사만다와 비슷한 제품을 세상에 내놨다.

오픈AI의 최고기술책임자(CTO)인 미라 무라티가 라이브 스트리밍을 통해 GPT-4o를 소개하고 있다. (사진=오픈AI)
사람과 실시간 대화 가능…통역에 노래까지 부른다

오픈AI는 이날 라이브 스트리밍 이벤트를 통해 기존 AI 대규모 언어모델(LLM)인 GPT4의 성능을 대폭 개선한 GPT-4o를 새롭게 출시했다고 밝혔다.

GPT-4o의 ‘o’는 하나의 통합된 AI 모델을 의미하는 ‘옴니모델(omnimodel)’을 뜻한다. 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델이다. 모델이 음성, 텍스트 또는 이미지로 콘텐츠를 생성하거나 명령을 이해할 수 있다는 것을 의미한다. 기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성, 텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 거의 실시간으로 내놓는다. GPT-3.5는 평균 2.8초, GPT-4가 응답에 5.4초가 걸렸는데 반해, GPT-4o의 응답시간은 최소 232밀리초, 평균 320밀리초다.

특히 오픈AI는 복잡한 기술 향상보다는 AI가 실제 우리 삶을 어떻게 바꿀 수 있을지 구현하는 데 집중했다. 사용 편의성을 극대화한 것이다. 실제 이날 오픈AI가 보여준 GPT-4o의 핵심 기능 중 하나는 지금까지 AI 음성 챗봇에는 없었던 사실적인 대화다. 사용자가 챗GPT에 말을 걸면 실시간으로 지연 없이 실시간 응답을 하는 식이다.

이를테면 시연자가 스마트폰 카메라를 통해 주변 환경을 보여주면 AI가 “조명, 삼각대, 마이크가 있고, 동영상 촬영이나 라이브 스트리밍을 준비 중인 것 같다”고 답한다. 스마트폰 카메라를 통해 대상을 해석하고 사용자와 대화를 나눈다.

‘잠을 잘 자지 못하는 친구를 위해 잠자리 이야기를 들려달라’고 하자, 이 AI 모델은 다양한 목소리와 감정, 톤으로 바꿔가며 이야기를 들려줬다. 종이에 적힌 수학 방정식을 조언에 따라 단계별로 문제를 풀었고, 통역 기능도 제공했다. 발표를 맡은 미라 무라티 최고기술책임자(CTO)가 이탈리아어로 말을 걸면 영어로 변환한 다음 바로 영어로 응답을 받아 이탈리아어로 대화했다. 심지어 요청에 따라 이야기 일부를 노래하기도 했다.

미라 CTO는 “챗GPT가 이제 메모리 기능도 갖추게 돼 사용자와 이전 대화를 통해 학습하고 실시간 번역을 할 수 있게 됐다”며 “사용 편의성 측면에서 큰 진전을 이룬 것은 이번이 처음이다”고 말했다.

새 모델은 50개 언어를 지원하도록 품질과 속도를 개선했다. 오픈AI는 ‘GPT-4o’ 모델이 기존 GPT-4 터보보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했다. GPT-4 터보는 지난해 11월 선보인 최신 버전이다.

미라 CTO는 “챗GPT는 현재 1억 명이 사용하는 AI 솔루션이며, 97%의 세계 시민을 사용하는 50개 언어로 제공된다”며 “이번에 추가된 15개 언어를 통해 더욱 많은 사람이 AI 기술을 활용할 수 있을 것”이라고 강조했다.

오픈AI는 무료 버전의 챗GPT3.5를 사용하는 사용자를 포함한 모든 사용자에게 GPT-4o를 사용할 수 있도록 했다. 유료 사용자(챗GPT4.0, 월 20달러)는 무료 이용자보다 5배 많은 질문을 할 수 있다. 오픈AI는 앞으로 몇 주에 걸쳐 사용자에게 GPT-4o 기능을 공개할 계획이다.

샘 올트먼 “컴퓨터와 대화, 이제는 자연스러워졌다”

이날 발표에 샘 올트먼 최고경영자(CEO)는 참석하지 않았지만, 블로그를 통해 GPT-4o의 장점을 소개했다. 그는 먼저 “오픈AI의 미션의 핵심은 매우 유능한 AI도구를 사람들에게 무료 또는 저렴한 가격으로 제공하는 것”이라며 “세계 최고의 모델을 광고 없이 챗GPT에서 무료로 사용할 수 있게 한 것에 대해 매우 자랑스럽게 생각한다”고 강조했다.

아울러 그는 “새로운 음성(및 비디오)보드는 제가 사용해 본 컴퓨터 인터페이스 중 최고”라며 “마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금 놀랍다. 사람 수준의 응답시간과 표현력을 갖추게 된 것이 가장 큰 변화”라고 추켜세웠다. 그는 이날 자신의 X계정에 영화 ‘허(Her)’의 제목을 적었다. GPT-4o가 사만다를 모델로 만들었다는 것을 암시할 수 있는 대목이다.

그러면서 올트먼은 “컴퓨터와 대화하는 것이 자연스럽지 않았는데 이제는 자연스러워졌다”며 “개인화, 사용자 정보에 대한 액세스 등 기능이 추가되면 컴퓨터로 이전보다 훨씬 더 많은 일을 할 수 있는 흥미로운 미래가 보인다”고 덧붙였다.

구글과 초격차 늘리는 오픈AI…끊임없는 AI 지각변동

GPT-4o의 출시는 빠르게 진화하는 AI 환경에 지각변동을 계속 일으킬 것으로 예상된다. 최근 앤트로픽, 코히어, 구글 등이 GPT-4의 성능과 일치하거나 이를 능가하는 AI모델을 출시하고 있는데, 한 번 더 ‘초격차’를 늘린 것으로 풀이된다.

특히 GPT-4o는 14일 구글의 연례 개발자 회의(I/O) 하루 전날에 나왔다. AI 모델인 제미나이의 업그레이드 버전을 공개할 것으로 예상되는데, 오픈AI가 먼저 치고 나간 것이다. 마이크로소프트는 오픈AI에 대규모 투자를 통해 검색시장을 장악하고 있는 구글의 아성에 도전하고 있다. 오픈A는 검색기능을 포함한 GPT 서비스는 연말께 내놓을 것으로 예상된다.

김상윤 (yoon@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?