"날씨 어때?" "책읽기 딱 좋아"… 감정 살피며 0.3초만에 대답

이상덕 기자(asiris27@mk.co.kr), 이덕주 특파원(mrdjlee@mk.co.kr) 2024. 5. 14. 18:03
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

'음성비서 게임체인저' GPT-4o 사용해보니
"아아아! 후후후" 소리내자
"진정하고 심호흡하세요"
50개 언어로 쌍방향 통역
한국어 등 20개 언어 성능 쑥
세계 AI경쟁서 주도권 강화
무료로 뿌려 확산 속도 빨라
교육·통역분야 파괴력 클듯

◆ 진화하는 AI ◆

스마트폰 2대를 나란히 붙여놓고, 새로 나온 오픈AI의 'GPT-4o'에 말을 걸었다. "안녕 서울 날씨에 대해 알려줄래?" 곧 인공지능(AI)끼리 대화를 주고받기 시작한다. 한 AI가 "오늘의 서울 날씨는 아주 화창할 예정이고, 온도는 낮 한때 24.4도까지 올라갈 것 같습니다"고 답변했다. 이 말을 듣고 있던 AI가 또 말을 건넨다. "이런 날씨에는 집에서 독서하기에 좋을 것 같습니다. 또 집에서 파스타를 만들어 먹기에도 좋은 날씨입니다."

13일(현지시간) 오픈AI가 새롭게 공개한 AI인 GPT-4o는 '게임체인저'다. 지금껏 나온 '시리'나 '알렉사' 같은 음성 AI 비서는 실시간 응답에 상당한 제약이 있었다. 또 주고받는 정보 역시, 검색에 기반하다 보니 창의적이지 못했다. 하지만 GPT-4o의 음성 기능은 이 모든 것을 뛰어넘었다.

모델은 크게 △남성과 여성 5개 목소리에 50개 언어를 지원하며 △ 감정을 파악해 이에 맞는 답변을 지원하고 △한국어-일본어, 한국어-영어 같은 실시간 통역을 지원한다. 가장 놀라운 점은 속도다. 오픈AI는 "응답 시간이 빠르면 0.23초, 평균 0.32초에 불과해 실시간 대화가 가능하다"고 설명했다. 종전 오픈AI의 모델이 2.8~5.4초 소요된 것을 크게 앞지른 셈이다.

또 다국어 대규모언어모델(LLM)이다 보니 GPT-4o는 50개 언어를 지원한다. 한국어에서 일본어로, 영어에서 한국어로 양방향 통역이 가능한 언어 쌍이 2450개에 달한다.

아울러 감정 기능 인식을 갖추고 있다. 오픈AI는 감정을 어떻게 받아들이는지 시연했다. 예를 들어 한 남자가 "아아아! 후후후" 하고 소리를 내니, AI는 "진정하고 심호흡을 하세요"라고 답변한다. 반대로 감정을 살리도록 명령할 수 있다. 기쁘고 슬프고 분노하는 감정을 실어서 말하라고 명령하면 AI는 이를 따른다.

목소리는 남성과 여성, 톤의 높낮이에 따라 다양하다. 골라서 사용할 수 있다. GPT-4o는 순차적으로 업데이트될 예정이다. 현재는 이미지를 음성으로 설명하는 것은 안 된다. 하지만 앞으로 수 주 내에 이미지나 동영상을 올리면 이를 AI가 음성으로 알려주는 기능을 탑재한다. 오픈AI는 이를 활용해 한 시각장애인이 GPT-4o만으로 택시를 잡는 영상을 시연했다. 예를 들어 스마트폰 카메라를 켜고 정면을 비추자, AI가 "자, 지금 택시가 오고 있습니다. 손을 들어 택시를 잡으세요"하고 안내한다.

영화 '그녀(Her)'에서 주인공이 여성 AI와 대화를 나누고 있다.

오픈AI가 막강한 음성 AI 비서를 공개할 수 있었던 배경에는 엔비디아의 GPU 지원이 한몫했다. 엔비디아의 AI 연구자인 짐 판은 이날 자신의 엑스(X·옛 트위터) 계정을 통해 "(GPT-4o의 뛰어난 성능은) 데이터와 시스템 최적화의 결과"라며 "기존 음성 대화는 음성을 텍스트로 바꾸고 텍스트를 다시 음성으로 바꾸는 과정을 거쳤지만, GPT-4o는 음성을 음성으로 그대로 학습시켰다"고 강조했다. 그만큼 음성이 자연스러울 수 있었던 것이다. 하지만 기자가 직접 체험해보니, 해당 음성은 통역사의 음성을 학습한 것으로 추정된다. 남성, 여성 목소리 할 것 없이 통역사 특유의 문장 첫 단어를 길게 끄는 발성을 한다.

생동감 있는 대화를 할 수 있는 배경은 빠른 검색 기능인 것으로 보인다. 예를 들어 라인야후 사태에 대해 알려 달라고 하자, 해당 소식을 자세히 소개했다. 저장된 기록을 보니 한국 신문 데이터를 검색하고, 이를 기반으로 맞춤 답변을 하는 것으로 나타났다.

GPT-4o에서 '오(o)'는 모든 것을 가리키는 옴니(Omni)의 약자다. 텍스트·오디오·비디오 AI를 통합한 이른바 멀티모달 AI 엔진인 것을 강조한 대목이다. 특히 오픈AI는 해당 모델을 '네이티브 멀티모달'이라고 강조했다. 타고난 통합 AI 엔진이라는 포부다. 오픈AI는 한국어를 포함해 20개 언어의 성능을 대폭 강화했다. 한국, 프랑스, 일본을 비롯한 전 세계가 AI 주권 경쟁을 펼치고 있는 상황에서 나온 기습적인 사다리 걷어차기다. 특히 다중작업언어이해(MMLU) 평가에서는 88.7점을 기록했고, 멀티모달 작업(MMMU) 평가에서는 69.1점을 획득해 다른 모델들을 앞질렀다. 이번 개선으로 한국어 처리에 필요한 입력 토큰 수가 기존 대비 1.7배 감소했다. 토큰은 정보 처리 시 사용하는 단위다.

오픈AI는 이를 API(응용 프로그래밍 인터페이스)로 각 기업에 함께 제공할 방침이다. API 제공 때 처리 속도는 2배 빠르고 비용은 절반 수준이다. 구글의 제미나이, 메타의 라마3 같은 빅테크 기업이 오픈AI를 빠른 속도로 추격하자 가격 경쟁력을 확보해 이를 뿌리치겠다는 메시지다.

이 밖에 오픈AI는 새로운 데스크톱 앱을 공개했다. 웹과 달리 화면 창을 닫을 필요가 없다. 또 단축 키를 활용해 문서 작성 도중 챗GPT에 곧바로 질문이 가능하다. 또 오픈AI는 GPT-4o를 시연하면서 1시간 분량의 강의 영상을 요약하는 모습을 시연했다. 다만 수많은 기업이 이미 GPT-4를 기반으로 AI 서비스를 개발했는데, GPT-4o를 연동하려 한다면 종전 서비스를 대대적으로 업데이트할 필요가 있을 것으로 보인다.

GPT-4o는 챗GPT에 로그인한 사람은 누구나 무료로 사용이 가능하다. 다만, 플러스 요금제를 사용하는 사람들에게는 사용량을 다섯 배 더 준다. 미라 무라티 오픈AI 최고기술책임자(CTO)는 "챗GPT는 오늘날 1억명이 사용하는 AI 솔루션"이라면서 "개방의 정신대로 무료로 배포한다"고 말했다.

[이상덕 기자 / 실리콘밸리 이덕주 특파원]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?