오픈AI, 음성비서 ‘GPT-4o’ 발표 “실시간 통역에 노래까지 부른다”

이상덕 기자(asiris27@mk.co.kr) 2024. 5. 14. 02:33
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

오픈AI가 텍스트, 비전, 오디오를 통합한 멀티모달 모델 'GPT-4o'를 온라인을 통해 14일 발표했다.

GPT-4o는 기존 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원한다.

또 GPT-4o의 API는 이전 모델인 GPT-4보다 2배 더 빠르고 2배 더 저렴하다.

GPT-4o는 다양한 AI 엔진을 통합해 진정한 AI 에이전트가 될 것으로 보인다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

텍스트·비전·오디오 통합
GPT-4o
오픈AI가 텍스트, 비전, 오디오를 통합한 멀티모달 모델 ‘GPT-4o’를 온라인을 통해 14일 발표했다.

GPT-4o는 기존 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원한다. 이번 발표에서는 15개 언어가 추가됐다. 미라 무라티 오픈AI 최고기술책임자는 “챗GPT는 현재 1억 명이 사용하는 AI 솔루션이며, 97%의 세계 시민을 커버하는 50개 언어로 제공된다”며 “이번에 추가된 15개 언어를 통해 더욱 많은 사람들이 AI 기술을 활용할 수 있을 것”이라고 밝혔다.

또 GPT-4o의 API는 이전 모델인 GPT-4보다 2배 더 빠르고 2배 더 저렴하다.

핵심은 음성 기능 강화다. 텍스트 비디오 이미지를 업로드하면 대화할 수 있고, 음성과 음성 대화도 가능하다. 종전에는 음성과 음성 연결이 불가능했다. 말을 하면, 챗GPT가 문장을 입력하는 정도였다. 하지만 이번에는 음성을 입력하면 챗GPT가 음성을 출력했다.

예를 들어, 오늘 날씨를 물으면 실시간으로 알려준다. 또 실시간 통역 역시 가능하다. 아울러 수학, 영화, 여행 등 다양한 분야에 적용할 수 있다. 소프트웨어 엔지니어는 코드를 입력해 이상 유무를 확인하고, 문제점을 음성으로 교정받을 수도 있다.

GPT-4o는 다양한 AI 엔진을 통합해 진정한 AI 에이전트가 될 것으로 보인다. 특히 AR 글래스나 디바이스 산업을 바꿀 수 있다. 메타가 AI 에이전트 접목을 시도하고 있는데, GPT-4o의 등장으로 경쟁이 심화될 것으로 예상된다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?