“아아아! 후후후” 소리내자…“진정하고 심호흡 하세요” 말 건넸다

음성비서 ‘게임체인저’ GPT-4o 사용해보니
감정 파악하며 통역·AI끼리도 잡담 가능해
평균 0.32초만에 응답하는 리얼타임
50개 언어 및 실시간 감정 인식 지원
직접적인 음성 학습, 통역사에 도전장
한국어 등 20개語 강화해 ‘AI주권’ 차단
API 요금 낮춰, 빅테크 도전 뿌리 친다

스마트폰 두 대를 나란히 붙여 놓은 채 인공지능 GPT-4o 둘이서 대화하는 모습을 챗GPT에 요청했다. [사진 = 챗GPT]

스마트폰 2대를 나란히 붙여 놓고, 새로 나온 오픈AI의 ‘GPT-4o’에 말을 걸었다. “안녕 서울 날씨에 대해 알려줄래”. 곧 인공지능(AI)끼리 대화를 주고받기 시작한다. 한 AI가 “오늘의 서울 날씨는 아주 화창할 예정이고, 온도는 낮 한때 24.4도까지 올라갈 것 같습니다”라고 답변했다. 이 말을 듣고 있던 AI가 또 말을 건넨다. “이런 날씨에는 집에서 독서하기에 좋을 것 같습니다. 또 집에서 파스타를 만들어 먹기에도 좋은 날씨입니다.”

오픈AI가 새롭게 공개한 AI인 GPT-4o는 ‘게임 체인저’다. 지금껏 나온 시리나 알렉사 같은 음성 AI 비서는 실시간 응답에 상당한 제약이 있었다. 또 주고받는 정보 역시, 검색에 기반하다 보니 창의적이지 못했다. 하지만 GPT-4o 음성 기능은 이 모든 것을 뛰어넘었다.

해당 모델은 크게 △ 남성과 여성 5개 목소리에 50개 언어를 지원하며 △ 상대방의 감정을 파악해 이에 맞는 답변을 지원하고 △ 한국어-일본어, 한국어-영어 같은 실시간 통역을 지원한다. 가장 놀라운 점은 속도다. 오픈AI는 “응답시간이 빠르면 0.23초, 평균 0.32초에 불과해 실시간 대화가 가능하다”고 설명했다. 종전 오픈AI 모델이 2.8~5.4초 소요된 것을 크게 앞지른 셈이다.

또 다국어 대규모언어모델(LLM)이다 보니 GPT-4o는 50개 언어를 지원한다. 한국어에서 일본어로, 영어에서 한국어로 쌍방향 통역가능한 언어쌍이 2450개에 달한다.

아울러 감정 기능 인식을 갖추고 있다. 오픈AI는 감정을 어떻게 받아들이는지 시연했다. 예를 들어 한 남자가 “아아아! 후후후”하고 소리를 내니, AI는 “진정하고 심호흡을 하세요”하고 답변한다. 반대로 감정을 살리도록 명령할 수 있다. 기쁘고 슬프고 분노하는 감정을 실어서 말하라고 명령하면 AI는 이를 따른다.

목소리는 총 다섯종이다. 코브(Cove), 쥬니퍼(Juniper), 엠버(Ember), 브리즈(Breeze), 스카이(Sky)로 남성과 여성, 톤의 높낮이에 따라 다양하다. 골라서 사용할 수 있다.

GPT-4o는 순차적으로 업데이트될 예정이다. 현재는 음성간 음성만 지원한다. 하지만 앞으로 수주 내에 이미지나 동영상을 올리면 이를 AI가 음성으로 알려주는 기능을 탑재한다. 오픈AI는 이를 활용해 한 시각장애인이 GPT-4o만으로 택시를 잡는 영상을 시연했다. 예를 들어 스마트폰 카메라를 켜고 정면을 비추자, AI가 “자 지금 택시가 오고 있습니다. 손을 들어 택시를 잡으세요”하고 안내한다.

오픈AI가 막강한 음성 AI 비서를 공개할 수 있었던 배경에는 엔비디아의 GPU 지원이 한몫했다. 엔비디아의 AI 연구자인 짐 판은 이날 자신의 X계정을 통해 “(GPT-4o의 뛰어난 성능은) 데이터와 시스템 최적화의 결과”라며 “기존 음성 대화는 음성을 텍스트로 바꾸고 텍스트를 다시 음성으로 바꾸는 과정을 거쳤지만, GPT-4o는 음성을 음성으로 그대로 학습시켰다”고 강조했다. 그만큼 음성이 자연스러울 수 있었던 것이다. 하지만 기자가 직접 체험해보니, 해당 음성은 통역사의 음성을 학습한 것으로 추정된다. 남성 여성 목소리 할 것 없이 통역사 특유의 문장 첫 단어를 길게 끄는 발성을 한다.

생동감 있는 대화를 할 수 있는 배경은 빠른 검색 기능이 있기 때문인 것으로 보인다. 예를 들어, 라인야후 사태에 대해 알려달라고 하자, 해당 소식을 자세히 소개했다. 저장된 기록을 보니 한국 신문 데이터를 검색하고, 이를 기반으로 맞춤 답변하는 것으로 나타났다.

GPT-4o에서 ‘오(o)’는 모든 것을 가리키는 옴니(Omni)의 약자다. 테스트·오디오·비디오 AI를 통합한 이른바 멀티모달 AI 엔진인 것을 강조한 대목이다. 특히 오픈AI는 해당 모델을 ‘네이티브 멀티모달’이라고 강조했다. 타고난 통합 AI 엔진이라는 포부다.

오픈AI는 한국어를 포함해 20개 언어는 성능을 대폭 강화했다. 한국 프랑스 일본을 비롯한 전 세계가 AI주권 경쟁을 펼치고 있는 상황에서 나온 기습적인 사다리 걷어차기다. 특히, 다중작업언어이해(MMLU) 평가에서는 88.7점을 기록했고, 멀티모달 작업(MMMU) 평가에서는 69.1점을 획득해 다른 모델들을 앞질렀다. 이번 개선으로 한국어 처리에 필요한 입력 토큰 수가 기존 대비 1.7배 감소했다. 토큰은 정보를 처리할 때 사용하는 기본 단위로, 그만큼 비용은 낮아지고 효용은 높아진다는 뜻이다.

오픈AI는 이를 API(응용 프로그래밍 인터페이스)로 각 기업에 함께 제공할 방침이다. API 제공때 처리속도는 2배 빠르고 비용은 절반 수준이다. 구글의 제미나이, 메타의 라마3 같은 빅테크 기업이 오픈AI를 빠른 속도로 추격하자, 가격 경쟁력을 확보해 이를 뿌리치겠다는 메시지다.

이밖에 오픈AI는 새로운 데스크톱 앱을 공개했다. 웹과 달리 화면 창을 닫을 필요 없다. 또 단축 키를 활용해 문서 작성 도중 챗GPT에 곧바로 질문이 가능하다. 또 오픈AI는 GPT-4o를 시연하면서 1시간 분량의 강의 영상을 요약하는 모습을 시연했다. 다만 수많은 기업이 이미 GPT-4를 기반으로 AI 서비스를 개발했는데, GPT-4o를 연동하려고 한다면 종전 서비스를 대대적으로 업데이트할 필요가 있을 것으로 보인다.

GPT-4o는 챗GPT에 로그인 한 사람은 누구나 무료로 사용이 가능하다. 다만, 플러스 요금제를 사용하는 사람들에게는 사용량을 다섯배 더 준다. 미라 무라티 오픈AI 최고기술책임자(CTO)는 “챗GPT는 오늘날 1억명이 사용하는 AI 솔루션”이라면서 “개방의 정신대로 무료로 배포한다”고 말했다.

오픈AI가 성능을 크게 향상한 AI 모델을 내놓으면서 음성 관련 산업이 크게 흔들릴 것으로 보인다. 특히 AI를 활용해 영어 교육을 하는 스타트업과 통역 담당자는 크게 위축될 가능성이 있다. GPT-4o API를 활용해 서비스를 구축할 경우 화상회의에서 순차 통역이 가능해진다. 또 AR글래스에 GPT-4o를 연동할 경우 보고 있는 것만으로 사물을 이해하고, 별도 스마트폰 없이도 낯선 외국인과 실시간 대화를 주고 수 있다.

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT

“아아아! 후후후” 소리내자…“진정하고 심호흡 하세요” 말 건넸다