네이버 "스피치X 고도화 중...내년 2분기 공개"

조수민 기자 2024. 11. 11. 21:29
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

네이버가 AI 기반 음성 합성 기술 '스피치X'를 내년 2분기에 일반 이용자들이 사용할 수 있도록 공개한다.

유강민 네이버클라우드 하이퍼스케일 AI 파운데이션 리서치팀 리더는 11일 서울 강남 코엑스에서 열린 '단24' 컨퍼런스에서 'HyperCLOVA X Audio: 자연스러운 음성 대화를 위한 기술' 발표를 진행하며 스피치X 개발 현황에 대해 설명했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

텍스트·음성 모달리티 결합...LLM이 직접 음성 다뤄

(지디넷코리아=조수민 기자)네이버가 AI 기반 음성 합성 기술 '스피치X'를 내년 2분기에 일반 이용자들이 사용할 수 있도록 공개한다. 회사는 현재 스피치X의 정확성과 품질을 높이는 고도화 작업 중이다. 

유강민 네이버클라우드 하이퍼스케일 AI 파운데이션 리서치팀 리더는 11일 서울 강남 코엑스에서 열린 '단24' 컨퍼런스에서 'HyperCLOVA X Audio: 자연스러운 음성 대화를 위한 기술' 발표를 진행하며 스피치X 개발 현황에 대해 설명했다.

스피치X는 실제 사람 목소리와 유사한 허상 인물의 목소리를 생성한다. 텍스트와 음성 모달리티가 결합돼 LLM이 직접 음성을 다룰 수 있다는 점에서 앞서 네이버가 공개한 클로바 스피커, 클로바 더빙 등과 차이가 있다. 다양한 음성 데이터를 학습해 언어의 구조 및 발음의 정확성을 개선한다. 언어적 뉘앙스, 감정적 표현 등 인간과 유사한 소통방식을 구현한다.

유강민 네이버클라우드 하이퍼스케일 파운데이션 리서치팀 리더

해당 기술은 우선적으로 쇼핑라이브, AI CALL, 치지직 등 네이버 내부 서비스로 공급된다. 이후 정확성과 품질을 향상한 후 내년 2분기 클로바X를 통해 보이스 엔진을 붙인 합성형태로 일반 이용자에게 제공될 예정이다.

스피치X는 개인화 음성 서비스, 실시간 음성 번역, 감정 표현 음성 합성, 대화형 AI 응답 등 다양한 분야에 적용될 전망이다. 이날 유 팀 리더는 스피치X로 가상의 축구 해설가의 목소리를 만든 합성 음성을 공개하며 "실제 사람 목소리와 구분이 안 될 정도로 매우 깔끔하게 합성이 되고 있는 것을 확인할 수 있다"고 강조했다.

개발에는 범죄나 개인정보 문제와 무관한 데이터를 수집해 활용한다. 유 팀 리더는 "각 데이터에 개인정보가 많이 들어 있거나 회사의 정책이 복잡하게 얽혀 있는 등 실제 쓸 수 있는 데이터는 많지 않다"며 "최대한 많은 이들의 음색을 고려하기 위해 범죄, 개인정보 이슈가 없는 데이터를 수집 중"이라고 했다.

유 팀 리더는 "음성 기술을 계속 다듬고 앞으로 실시간 인터랙션이 가능한 형태를 만들어갈 것"이라고 말했다.

조수민 기자(blue@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?