KAIST, 24시간 말하는 AI 비서 가능성 열어

박세진 박사과정, 음성 언어 모델 '스피치SSM' 발표
장시간 자연스러운 음성 생성… 음성비서 등 활용 기대

"실제 사람이 사용할 수 있도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 게 목표였습니다"

24시간 말할 수 있는 인공지능(AI) 비서를 한층 더 현실화시킨 박세진 한국과학기술원(KAIST) 연구원(박사과정)은 이렇게 말했다.

최근 노용만 전기및전자공학부 교수 연구팀 소속 박 연구원은 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다.

음성 언어 모델은 중간 원문 변환 과정을 거치지 않고 음성을 직접 처리해 고품질 음성을 빠르게 생성할 수 강점이 있지만, 기존 모델은 자세한 정보까지 담을 경우 메모리 소비가 증가하는 등의 문제로 화자의 일관성 등을 장시간 유지하기 어려웠다.

박 연구원은 이를 해결하기 위해 하이브리드 상태공간 모델을 사용했다.

스피치SSM은 최근 정보에 집중하는 '어텐션레이어'와 전체 이야기 흐름을 기억하는 '순환 레이어'를 교차배치한 '하이브리드 구조'로, 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다.

또 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아 장시간 음성도 안정적이고 효율적으로 학습하고 생성할 수 있다.

연구팀은 스피치SSM 모델로 생성된 음성을 긴 시간 생성해도 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 새로운 인물, 사건들과 함께 자연스럽게 전개되는 모습을 확인했다.

장시간 음성 생성 시 쉽게 주제를 잃고 반복되는 현상을 보이는 기존 모델들과는 크게 대조적이라는 설명이다.

박 연구원은 "연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다"고 밝혔다.

이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 가치를 인정받았다.

이에 16일 열리는 ICML 2025에서 구글 딥마인드와 협력해 구두 발표로 소개될 예정이다.

앞서 박 연구원은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상 수상 등을 통해 역량을 입증한 바 있다.