KAIST, 무한대 음성 학습·평가 가능한 언어모델 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
이론적으로 무한대로 음성을 생성할 수 있는 음성언어모델(SLM)이 공개됐다.
연구팀은 "기존은 100초 정도 짧은 음성 모델을 평가했지만, 우리는 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 '라이브리스피치-롱(LibriSpeech-Long)'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다"고 설명했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=박희범 기자)이론적으로 무한대로 음성을 생성할 수 있는 음성언어모델(SLM)이 공개됐다. 이 모델은 영어로된 텍스트를 자연스럽게 음성으로 전달한다.
KAIST(총장 이광형)는 전기및전자공학부 노용만 교수 연구팀 박세진 연구원(박사과정)이 새로운 음성 언어 모델 ‘스피치SSM'을 개발했다고 4일 밝혔다.
노용만 교수는 "현재 공개한 건 영어 텍스트를 여성 음성으로 만들었다"며 "향후 박세진 연구생(박사과정)이 메타(페이스북) 인턴을 마치고 돌아오면 한글로 된 음성도 만들어 공개하게 될 것"이라고 말했다.

연구 결과는 머신러닝 국제 컨퍼런스(ICML) 2025에 구두 논문 발표 대상으로 확정됐다. 구글 딥마인드와 협력해 오는 16일 열릴 국제머신러닝학회(ICML)에서 구두로 발표할 예정이다
음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리한다. 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다.
이같은 장점에도 불구하고 SLM은 음성을 아주 세밀하게 잘게 쪼개 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 메모리 소비도 증가해 장시간 일관성 있는 음성 생성이 어려웠다.
연구팀은 이 문제를 해결하기 위해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있도록 정보에 집중하는 ‘어텐션 레이어’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 ‘순환 레이어'를 교차 배치한 ‘하이브리드 구조’ 로 설계했다.
노용만 교수는 "이 구조가 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다는 것을 연구팀이 확인했다"고 설명했다.
연구팀은 또 음성 데이터를 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들었다.
음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀’ 방식의 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있도록 했다.

연구팀은 "기존은 100초 정도 짧은 음성 모델을 평가했지만, 우리는 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘라이브리스피치-롱(LibriSpeech-Long)'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다"고 설명했다.
논문 제1저자인 박세진 연구생(박사과정)은 “긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답한다"며 "다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 덧붙였다.
박희범 기자(hbpark@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- LIG넥스원·KAIST, 국방 자율시스템 연구센터 설립 협약
- KAIST, '노벨상 펀드'로 불리는 'HFSP' 수상
- KAIST "디지털 해킹 피해 대응 젠더따라 차이"
- [AI는 지금] "인류 통제 벗어날 수도"…세계 석학들이 보낸 적색 경보
- 저평가주 외인 매수세에...SK텔레콤 주가 고공행진
- HBM4 출하 경쟁 '과열'...엔비디아 수급 전략이 공급망 핵심 변수
- "또 실패는 없다"…구글이 AI 글래스 '킬러앱'에 카톡 찜한 이유
- 런던베이글뮤지엄 임금체불·직장 내 괴롭힘 사실이었다
- 규제·과포화에 성장 막힌 프랜차이즈…"해외가 답"
- 해시드 "스테이블코인 거래, 신원 인증된 AI에이전트에만 허용해야"