KAIST, 24시간 말하는 AI 비서 가능성 열어
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
24시간 말할 수 있는 인공지능(AI) 비서를 한층 더 현실화시킨 박세진 한국과학기술원(KAIST) 연구원(박사과정)은 이렇게 말했다.
최근 노용만 전기및전자공학부 교수 연구팀 소속 박 연구원은 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
장시간 자연스러운 음성 생성… 음성비서 등 활용 기대

"실제 사람이 사용할 수 있도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 게 목표였습니다"
24시간 말할 수 있는 인공지능(AI) 비서를 한층 더 현실화시킨 박세진 한국과학기술원(KAIST) 연구원(박사과정)은 이렇게 말했다.
최근 노용만 전기및전자공학부 교수 연구팀 소속 박 연구원은 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다.
음성 언어 모델은 중간 원문 변환 과정을 거치지 않고 음성을 직접 처리해 고품질 음성을 빠르게 생성할 수 강점이 있지만, 기존 모델은 자세한 정보까지 담을 경우 메모리 소비가 증가하는 등의 문제로 화자의 일관성 등을 장시간 유지하기 어려웠다.
박 연구원은 이를 해결하기 위해 하이브리드 상태공간 모델을 사용했다.
스피치SSM은 최근 정보에 집중하는 '어텐션레이어'와 전체 이야기 흐름을 기억하는 '순환 레이어'를 교차배치한 '하이브리드 구조'로, 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다.
또 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아 장시간 음성도 안정적이고 효율적으로 학습하고 생성할 수 있다.
연구팀은 스피치SSM 모델로 생성된 음성을 긴 시간 생성해도 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 새로운 인물, 사건들과 함께 자연스럽게 전개되는 모습을 확인했다.
장시간 음성 생성 시 쉽게 주제를 잃고 반복되는 현상을 보이는 기존 모델들과는 크게 대조적이라는 설명이다.
박 연구원은 "연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다"고 밝혔다.
이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 가치를 인정받았다.
이에 16일 열리는 ICML 2025에서 구글 딥마인드와 협력해 구두 발표로 소개될 예정이다.
앞서 박 연구원은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상 수상 등을 통해 역량을 입증한 바 있다.

Copyright © 대전일보. 무단전재 및 재배포 금지.
- 미국·이란 긴장 고조에 시장 출렁…金·銀 급등·국제유가 상승 - 대전일보
- 청주 에코프로HN 공장서 화재…직원 190명 대피 소동 - 대전일보
- 대전일보 오늘의 운세 양력 2월 24일, 음력 1월 8일 - 대전일보
- 충청권 분양가 2000만원 뉴노멀 시대… 정부는 뒷짐만 - 대전일보
- 통합법 본회의 카운트다운…대전충남, 표결 앞두고 장외 여론전 - 대전일보
- 성관계 영상 몰래 촬영한 20대 순경 불구속 입건 - 대전일보
- "3년만의 공급 숨통"…세종 주택시장 변화의 바람 - 대전일보
- '꼬리 자르기'로 비엔날레 예산 사태 끝나나…대전시립미술관 징계 형평성 도마 - 대전일보
- 코스피, 사상 첫 5900선 터치 후 상승폭 축소…5846.09로 최고치 마감 - 대전일보
- 李 지지도 58.2% '4주 연속 상승'…"증시 호황·다주택 규제"[리얼미터] - 대전일보