KAIST, 24시간 AI비서 가능성 열 '스피치SSM' 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
음성 언어 모델(SLM)이 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서는 한계가 두드러지는 가운데, 우리 연구진이 시간 제약 없이 자연스러운 음성 생성을 실현한 '스피치SSM'을 개발했다.
한국과학기술원(KAIST·총장 이광형)은 노용만 전기 및 전자공학부 교수팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다고 3일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
음성 언어 모델(SLM)이 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서는 한계가 두드러지는 가운데, 우리 연구진이 시간 제약 없이 자연스러운 음성 생성을 실현한 '스피치SSM'을 개발했다.
한국과학기술원(KAIST·총장 이광형)은 노용만 전기 및 전자공학부 교수팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다고 3일 밝혔다.
이번 연구는 국제 최고 권위 머신러닝 학회인 ICML 2025에 제출된 전체 논문 중 약 1%만 선정되는 구두 논문 발표에 확정, 연구 역량을 입증했다.
SLM은 음성을 텍스트로 변환하지 않고 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다. 그러나 기존 모델은 음성을 잘게 쪼개 아주 자세한 정보까지 담는 경우, '음성 토큰 해상도'가 높아지고 사용 메모리 소비도 증가해 장시간 음성의 의미·화자적 일관성을 유지하기 어려웠다.

연구팀은 문제를 해결하기 위해 하이브리드 상태공간 모델을 사용한 스피치SSM을 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 했다.
이 모델은 최근 정보에 집중하는 '어텐션 레이어'와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 '순환 레이어'를 교차 배치한 '하이브리드 구조'를 통해 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다.
또 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간 음성을 안정적이고 효율적으로 학습·생성할 수 있다.
스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스를 효과적으로 처리할 수 있게 했다.
또 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있게 했다.
기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 'LibriSpeech-Long'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다.
박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 밝혔다.
한편 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR 2024 하이라이트 논문 발표, 2024년 ACL에서 우수논문상 수상 등을 통해 우수한 연구 역량을 입증한 바 있다.
김영준 기자 kyj85@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- 이재명 대통령 “AI·반도체 투자 아끼지 않겠다”
- 美, 베트남과 관세 20% 합의…여한구 통상교섭본부장 주말 방미 협상
- 삼성SDS, 데이터센터 액침냉각 적용…친환경 데이터센터 속도
- 현대차, 고성능 전기차 아이오닉 6 N 티저 영상 공개
- PPP 클라우드 확산에 전담 MSP 도입 검토
- “슈퍼리치에 '상속세 50%' 부과”… 스위스, 국민투표로 결정한다
- 곳간 채운 앱솔릭스, 반도체 유리기판 생산 늘린다
- [단독]현대차, 新 아반떼·투싼에 '플레오스 커넥트' 첫 탑재
- 故 이건희 회장 기부 감염병 극복 연구사업 본격화…“국가 감염병 대응체계 강화”
- “고객 알면 백전불태”…오픈마켓, '데이터 분석 툴' 탑재 러시