음성 대화·실시간 번역·텍스트 변환 모델 공개 기업 서비스에 붙이는 개발자용 API로 제공 새 AI 기기 겨냥한 음성 인터페이스 강화
오픈AI의 새 음성 모델을 라이브 채팅에 적용한 모습/사진=오픈AI 홈페이지
오픈AI가 이용자와 AI의 음성 대화를 더 자연스럽게 구현하는 새 음성 AI 모델 3종을 선보였다. 새 모델은 대화 내용을 실시간으로 알아듣고 다른 언어로 통역하거나 텍스트로 바꿀 수 있어 회의·상담·교육 등 음성 기반 서비스에 활용될 전망이다.
오픈AI는 7일 현지시간 공식 홈페이지를 통해 개발자용 API에 새 음성 AI 모델 3종인 △GPT-리얼타임-2 △GPT-리얼타임-트랜슬레이트 △GPT-리얼타임-위스퍼 등을 도입한다고 밝혔다.
오픈AI는 이번 모델들이 개발자들이 보다 자연스럽게 반응하고, 더 지능적으로 응답하며, 실시간으로 행동할 수 있는 음성 경험을 만들 수 있도록 한다고 설명했다.
GPT-리얼타임-2는 GPT-5급 추론 능력을 갖춘 음성 모델이다. 이용자의 요청이 복잡해도 대화 맥락을 이어가며 처리하고, 대화 도중 요청이 바뀌거나 말이 끊기는 상황에도 대응할 수 있도록 설계됐다.
이 모델은 음성 대화 중 여러 도구를 호출해 실제 작업을 수행할 수 있다. 일정 확인, 예약 변경, 고객 응대처럼 대화와 업무 처리가 함께 필요한 서비스에 활용될 수 있다.
GPT-리얼타임-트랜슬레이트는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역하는 모델이다. 고객 지원이나 해외 영업, 교육, 행사 등 여러 언어가 오가는 현장에서 활용될 수 있다.
GPT-리얼타임-위스퍼는 대화를 실시간 텍스트로 바꾸는 모델이다. 회의 자막이나 회의록 작성, 상담 기록 등 음성 데이터를 곧바로 문서화해야 하는 업무에 적용할 수 있다.
오픈AI는 "이번 모델들은 실시간 음성 대화를 들으며 추론하고 번역하고 글자로 바꾸며 실제 행동까지 수행하는 음성 인터페이스로 발전시키기 위한 것"이라고 설명했다.
이번 음성 모델은 오픈AI가 준비 중인 자체 AI 기기와도 관련될 것으로 예상된다. 오픈AI는 지난해 조니 아이브 전 애플 최고 디자인책임자가 설립했던 AI 기기 스타트업 '아이오'(Io)를 약 65억 달러에 인수, 음성으로 작동하는 형태의 AI 기기를 개발 중인 것으로 알려졌다.