오픈AI, 대화 알아듣는 AI 고도화…새 음성 모델 3종 출시

이수영 기자 2026. 5. 8. 14:47
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

음성 대화·실시간 번역·텍스트 변환 모델 공개
기업 서비스에 붙이는 개발자용 API로 제공
새 AI 기기 겨냥한 음성 인터페이스 강화
오픈AI의 새 음성 모델을 라이브 채팅에 적용한 모습/사진=오픈AI 홈페이지

오픈AI가 이용자와 AI의 음성 대화를 더 자연스럽게 구현하는 새 음성 AI 모델 3종을 선보였다. 새 모델은 대화 내용을 실시간으로 알아듣고 다른 언어로 통역하거나 텍스트로 바꿀 수 있어 회의·상담·교육 등 음성 기반 서비스에 활용될 전망이다.

오픈AI는 7일 현지시간 공식 홈페이지를 통해 개발자용 API에 새 음성 AI 모델 3종인 △GPT-리얼타임-2 △GPT-리얼타임-트랜슬레이트 △GPT-리얼타임-위스퍼 등을 도입한다고 밝혔다.

오픈AI는 이번 모델들이 개발자들이 보다 자연스럽게 반응하고, 더 지능적으로 응답하며, 실시간으로 행동할 수 있는 음성 경험을 만들 수 있도록 한다고 설명했다.

GPT-리얼타임-2는 GPT-5급 추론 능력을 갖춘 음성 모델이다. 이용자의 요청이 복잡해도 대화 맥락을 이어가며 처리하고, 대화 도중 요청이 바뀌거나 말이 끊기는 상황에도 대응할 수 있도록 설계됐다.

이 모델은 음성 대화 중 여러 도구를 호출해 실제 작업을 수행할 수 있다. 일정 확인, 예약 변경, 고객 응대처럼 대화와 업무 처리가 함께 필요한 서비스에 활용될 수 있다.

GPT-리얼타임-트랜슬레이트는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역하는 모델이다. 고객 지원이나 해외 영업, 교육, 행사 등 여러 언어가 오가는 현장에서 활용될 수 있다.

GPT-리얼타임-위스퍼는 대화를 실시간 텍스트로 바꾸는 모델이다. 회의 자막이나 회의록 작성, 상담 기록 등 음성 데이터를 곧바로 문서화해야 하는 업무에 적용할 수 있다.

오픈AI는 "이번 모델들은 실시간 음성 대화를 들으며 추론하고 번역하고 글자로 바꾸며 실제 행동까지 수행하는 음성 인터페이스로 발전시키기 위한 것"이라고 설명했다.

이번 음성 모델은 오픈AI가 준비 중인 자체 AI 기기와도 관련될 것으로 예상된다. 오픈AI는 지난해 조니 아이브 전 애플 최고 디자인책임자가 설립했던 AI 기기 스타트업 '아이오'(Io)를 약 65억 달러에 인수, 음성으로 작동하는 형태의 AI 기기를 개발 중인 것으로 알려졌다.

이수영 머니투데이방송 MTN 기자