“텍스트·이미지는 너무 쉽잖아”...이제 ‘말발’로 이겨야한다는 ‘이것’

이가람 매경닷컴 기자(r2ver@mk.co.kr) 2024. 8. 29. 16:33
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

생성형 인공지능(AI)가 나날이 고도화하고 있다.

29일 정보기술(IT)업계에 따르면 아마존은 조만간 전면 개편한 AI 음성 비서 '알렉사(Alexa)'를 출시한다.

오픈AI도 지난달 유료 사용자 일부를 대상으로 멀티모달이 적용된 'GPT-포오(4o)'의 고급 음성 모드 알파 버전을 제공했다.

AI가 텍스트 및 이미지 정보를 음성으로 빠르게 변환해 응답을 조속히 도출해내는 것이 특징이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[사진 = 챗GPT]
생성형 인공지능(AI)가 나날이 고도화하고 있다. 텍스트와 이미지 영역을 넘어 음성 영역으로 활동 반경을 넓히는 모습이다. AI를 채팅이 아닌 대화로 이용할 수 있게 되면서 이용자 진입 장벽이 낮아지고 기업의 수익 창출 기회가 늘어나자, 글로벌 빅테크들이 경쟁적으로 음성 기반 AI 기능을 속속 공개하고 있다.

29일 정보기술(IT)업계에 따르면 아마존은 조만간 전면 개편한 AI 음성 비서 ‘알렉사(Alexa)’를 출시한다. 워싱턴포스트는 전날 알렉사가 대규모언어모델(LLM)을 활용해 복잡한 대화도 가능한 AI가 될 것이라고 보도했다. 기존에는 날씨나 환율과 같은 간단한 질문에만 음성으로 답변할 수 있었다.

오픈AI도 지난달 유료 사용자 일부를 대상으로 멀티모달이 적용된 ‘GPT-포오(4o)’의 고급 음성 모드 알파 버전을 제공했다. AI가 텍스트 및 이미지 정보를 음성으로 빠르게 변환해 응답을 조속히 도출해내는 것이 특징이다. 사용자의 목소리에서 느껴지는 감정도 인지할 수 있다.

애플은 다음 달 신제품 출시 행사에서 아이폰16에 들어가는 음성 비서 ‘시리(Siri)’의 업그레이드 버전을 공개할 방침이다. 구글은 올해 안에 ‘프로젝트 아스트라’를 선보이기 위한 작업에 한창이다.

메타 역시 유명 연예인의 목소리를 ‘메타 AI’에 탑재하기 위해 협상 중이라는 소식이 전해졌다. 텍스트형 서비스를 대화형 서비스로 전환해 사용자 편의성을 제고하고 커뮤니케이션 능력을 끌어올리겠다는 구상이다.

우리나라도 네이버가 초대규모 AI ‘하이퍼클로바X’ 기반의 ‘스피치X’ 기술을 내놨다. 복잡한 발화 패턴을 인식하고 언어와 문맥을 이해하도록 설계돼 자연스러운 음성을 생성한다. 음성 번역, 심리 상담, 가상 비서, 법률 자문 등에 이르기까지 다양한 용도로 활용될 전망이다.

복수의 IT업계 관계자는 “이용자들이 정확한 답변을 주고 대화 능력이 뛰어난 AI를 원하는 만큼 다양한 형태의 데이터를 처리하는 AI로의 기술 발전 속도가 빨라지고 있다”며 “초반에는 무료로 제공하다가 어느 정도 시간이 지나 유료화하면 수익 창출로 이어지기 때문에 테크기업들의 AI 사업 모델이 재편될 것”이라고 말했다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?