KAIST, 24시간 말하는 AI 기반 음성 언어모델 개발

보도기사

KAIST 노용만 교수 연구팀이 시간 제약 없이 일관되고 자연스러운 음성 생성이 가능한 인공지능 기반 음성 언어 모델, '스피치SSM'을 개발했습니다.

스피치SSM은 텍스트 없이도 음성을 학습하고 생성하는 '음성 언어 모델(SLM)'로, 장시간 콘텐츠에 적합한 차세대 기술로 주목받고 있습니다.

특히 장기적인 맥락과 기억을 유지하는 '하이브리드 상태공간 모델'을 적용해 기존 모델들이 겪던 주제 반복과 맥락 단절 문제를 해결했습니다.

이 기술은 음성을 짧은 단위로 나눈 뒤 다시 자연스럽게 이어붙이는 방식으로, 사실상 길이 제한 없는 음성 생성이 가능하다는 설명입니다.

또 음성 생성 단계에서 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식의 합성 모델을 적용해, 고품질 음성을 빠르게 제공할 수 있는 것도 강점입니다.

연구팀은 자체 구축한 'LibriSpeech-Long' 데이터셋을 바탕으로 16분 이상의 음성 생성을 실현했으며, 단순 문법 평가를 넘어 맥락적 일관성과 자연스러움을 평가하는 새로운 지표도 제시했습니다.

이 연구 제1 저자인 KAIST 박세진 박사과정생은 "이번 연구는 인간처럼 장시간 대화와 콘텐츠 생성이 가능한 음성 AI 기술 발전에 크게 기여할 것"이라며 기대감을 밝혔습니다.

이번 연구는 인공지능 분야 최고 권위 학회인 '국제 머신러닝 학회(ICML) 2025'에서 전체 논문 중 상위 1%만 선정되는 구두 발표 논문으로 채택돼 학회에서 7월 16일 소개될 예정이다.

TJB 대전방송 (사진 카이스트)

김건교 취재 기자 | kkkim@tjb.co.kr

IT/과학