KAIST, 24시간 말하는 AI 비서 가능성 열어

윤신영 기자 2025. 7. 3. 11:34
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

24시간 말할 수 있는 인공지능(AI) 비서를 한층 더 현실화시킨 박세진 한국과학기술원(KAIST) 연구원(박사과정)은 이렇게 말했다.

최근 노용만 전기및전자공학부 교수 연구팀 소속 박 연구원은 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

박세진 박사과정, 음성 언어 모델 '스피치SSM' 발표
장시간 자연스러운 음성 생성… 음성비서 등 활용 기대
한국과학기술원 전기및전자공학부 노용만(왼쪽) 교수와 박세진 연구원(박사과정). 한국과학기술원 제공

"실제 사람이 사용할 수 있도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 게 목표였습니다"

24시간 말할 수 있는 인공지능(AI) 비서를 한층 더 현실화시킨 박세진 한국과학기술원(KAIST) 연구원(박사과정)은 이렇게 말했다.

최근 노용만 전기및전자공학부 교수 연구팀 소속 박 연구원은 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다.

음성 언어 모델은 중간 원문 변환 과정을 거치지 않고 음성을 직접 처리해 고품질 음성을 빠르게 생성할 수 강점이 있지만, 기존 모델은 자세한 정보까지 담을 경우 메모리 소비가 증가하는 등의 문제로 화자의 일관성 등을 장시간 유지하기 어려웠다.

박 연구원은 이를 해결하기 위해 하이브리드 상태공간 모델을 사용했다.

스피치SSM은 최근 정보에 집중하는 '어텐션레이어'와 전체 이야기 흐름을 기억하는 '순환 레이어'를 교차배치한 '하이브리드 구조'로, 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다.

또 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아 장시간 음성도 안정적이고 효율적으로 학습하고 생성할 수 있다.

연구팀은 스피치SSM 모델로 생성된 음성을 긴 시간 생성해도 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 새로운 인물, 사건들과 함께 자연스럽게 전개되는 모습을 확인했다.

장시간 음성 생성 시 쉽게 주제를 잃고 반복되는 현상을 보이는 기존 모델들과는 크게 대조적이라는 설명이다.

박 연구원은 "연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다"고 밝혔다.

이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 가치를 인정받았다.

이에 16일 열리는 ICML 2025에서 구글 딥마인드와 협력해 구두 발표로 소개될 예정이다.

앞서 박 연구원은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상 수상 등을 통해 역량을 입증한 바 있다.

스피치SSM 개요. 한국과학기술원 제공

Copyright © 대전일보. 무단전재 및 재배포 금지.