페르소나AI, 한국형 소버린 AI 'SSTT' 공개... "사투리·고령자 음성 완벽 인식"

글로벌 인공지능(AI) 패권 경쟁이 심화되는 가운데 자국의 언어와 데이터를 기반으로 한 '소버린 AI(Sovereign AI)' 구축이 주요 과제로 떠올랐다. 이 같은 흐름 속에서 국내 기업이 한국어의 고유한 특성을 반영한 고성능 음성 AI 모델을 선보이며 데이터 주권 확보에 나섰다.

페르소나에이아이(이하 페르소나AI)는 2년간의 개발 과정을 거쳐 차세대 음성 AI 모델 'SSTT(Sovereign AI Speech to Text)'를 공개했다고 15일 밝혔다. 이번에 공개된 SSTT는 국가의 언어·문화·산업 데이터를 외부 의존 없이 자체적으로 운영할 수 있는 소버린 AI의 개념을 음성 기술에 적용한 것이 특징이다.

SSTT는 4000만개 이상의 한국어 발화 데이터셋과 약 5만시간 분량의 음성 데이터를 학습해 정밀도를 높였다. 특히 전체 학습량의 4분의 1에 달하는 1만3200시간을 사투리 데이터 학습에 할애했다. 이를 통해 경상·전라·충청·강원·제주 등 5대 권역별 방언과 고유 어휘를 구분하며, 기존 AI가 인식하기 어려웠던 60대 이상 고령 화자의 음성 특성까지 반영해 인식 범위를 넓혔다.

기술적 측면에서는 표준어 위주의 기존 음성 인식(STT) 한계를 극복하는 데 주력했다. 잡음·반향 감쇄, 원거리 인식을 위한 자동이득제어(AGC), 딥러닝 기반 음성구간 검출 등 전처리 기술을 고도화해 실시간 및 오프라인 환경에서도 안정적으로 동작한다.

특히 화자 분리 성능을 대폭 강화해 최대 20명의 목소리를 구별할 수 있다. 기존 기술이 통상 4~5명 수준의 화자 분리에 그쳤던 것과 비교하면 뚜렷한 진보다. 다자간 동시 대화 상황에서도 발화 주체와 내용을 정확히 파악할 수 있어 회의 기록, 현장 관제, 다중 사용자 인터페이스 등 다양한 산업 현장에서 활용도가 높을 것으로 예상된다.

업계는 이번 기술이 로봇, 키오스크, 자율 시스템 등 '피지컬 AI(Physical AI)' 시대를 대비하는 핵심 자산이 될 것으로 보고 있다. 기기가 음성을 중심으로 상호작용하는 환경에서 외산 모델에 의존할 경우 발생할 수 있는 데이터 보안 및 서비스 연속성 문제를 해소할 수 있기 때문이다.

페르소나AI는 AI 컨택센터(AICC)와 생성형 AI 분야를 주력으로 하는 기업으로 최근 CES 2026 혁신상을 수상하며 기술력을 인정받았다. 현재 피지컬 AI의 핵심 엔진인 VLA(Vision-Language-Action) 기술을 개발하며 로봇과 AI를 연결하는 운영 구조 구축에도 속도를 내고 있다.

페르소나AI 관계자는 "소버린 AI 경쟁의 핵심은 자국 언어와 실제 산업 환경에 대한 이해도"라며 "SSTT는 한국형 소버린 AI의 실질적 기반이 되는 핵심 모델로 자리 잡을 것"이라고 말했다.

파이낸셜뉴스

경제

페르소나AI, 한국형 소버린 AI 'SSTT' 공개... "사투리·고령자 음성 완벽 인식"