KAIST, 24시간 말하는 AI 기반 음성 언어모델 개발

김건교 2025. 7. 3. 09:22
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

보도기사
SpeechSSM 개요



KAIST 노용만 교수 연구팀이 시간 제약 없이 일관되고 자연스러운 음성 생성이 가능한 인공지능 기반 음성 언어 모델, '스피치SSM'을 개발했습니다.


스피치SSM은 텍스트 없이도 음성을 학습하고 생성하는 '음성 언어 모델(SLM)'로, 장시간 콘텐츠에 적합한 차세대 기술로 주목받고 있습니다.

특히 장기적인 맥락과 기억을 유지하는 '하이브리드 상태공간 모델'을 적용해 기존 모델들이 겪던 주제 반복과 맥락 단절 문제를 해결했습니다.

이 기술은 음성을 짧은 단위로 나눈 뒤 다시 자연스럽게 이어붙이는 방식으로, 사실상 길이 제한 없는 음성 생성이 가능하다는 설명입니다.

또 음성 생성 단계에서 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식의 합성 모델을 적용해, 고품질 음성을 빠르게 제공할 수 있는 것도 강점입니다.

연구팀은 자체 구축한 'LibriSpeech-Long' 데이터셋을 바탕으로 16분 이상의 음성 생성을 실현했으며, 단순 문법 평가를 넘어 맥락적 일관성과 자연스러움을 평가하는 새로운 지표도 제시했습니다.

이 연구 제1 저자인 KAIST 박세진 박사과정생은 "이번 연구는 인간처럼 장시간 대화와 콘텐츠 생성이 가능한 음성 AI 기술 발전에 크게 기여할 것"이라며 기대감을 밝혔습니다.


(왼쪽부터) 노용만 교수, 박세진 박사과정

이번 연구는 인공지능 분야 최고 권위 학회인 '국제 머신러닝 학회(ICML) 2025'에서 전체 논문 중 상위 1%만 선정되는 구두 발표 논문으로 채택돼 학회에서 7월 16일 소개될 예정이다.

TJB 대전방송 (사진 카이스트)

김건교 취재 기자 | kkkim@tjb.co.kr

Copyright © TJB