AI·로봇 '음성 제어' 전성시대 온다

강영운 기자(penkang@mk.co.kr) 2026. 5. 17. 17:18
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

PC 시대 입력 표준인 키보드와 마우스, 스마트폰 시대 표준인 터치스크린의 지위가 흔들리고 있다.

구글·애플·마이크로소프트(MS)·메타 등 글로벌 빅테크 기업이 차세대 성장 동력으로 음성 기술을 정조준하고 있어서다.

빅테크들이 이처럼 음성 기술 확보에 나서는 것은 다가올 피지컬 AI와 에이전트 시장이 음성인식 기술에 기반해 움직일 것이라는 기대 때문이다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 확산에 음성 명령 일상으로
빅테크, 음성스타트업 인수 붐
MS 29조·오픈AI 10조 투자
피지컬AI·에이전트 시장 대응
2034년 시장 규모 140조 전망

PC 시대 입력 표준인 키보드와 마우스, 스마트폰 시대 표준인 터치스크린의 지위가 흔들리고 있다. 구글·애플·마이크로소프트(MS)·메타 등 글로벌 빅테크 기업이 차세대 성장 동력으로 음성 기술을 정조준하고 있어서다. 생성형 인공지능(AI) 기술과 시너지 효과가 크게 날 것으로 예상되는 음성을 차세대 인터페이스(기기 작동 시스템)로 낙점한 것이다. 자율주행차와 휴머노이드 로봇 등 피지컬 AI와 에이전트 시장을 대비한 움직임이라는 분석도 나온다.

최근 구글은 애플 iOS용 음성 받아쓰기 애플리케이션인 'AI 에지 엘로퀀트(AI Edge Eloquent)'를 공개했다. 이용자가 말하는 내용을 인식해 텍스트로 바꿔주는 기술이다. 사용자가 두서없이 음성으로 얘기하더라도 AI가 문맥을 파악해 매끈하고 정제된 텍스트로 다듬어준다.

초기 음성인식 비서 '시리'로 시장의 기원을 열었던 애플도 서비스 고도화에 나선다. 다음달 개최되는 연례 개발자 회의 'WWDC 2026'에서 자체 생성형 AI 기능을 대폭 강화한 새로운 버전의 시리를 선보인다.

애플은 이미 음성 기술에 대규모 투자를 단행하면서 차세대 먹거리로 점찍었다. 지난 1월 음성인식 스타트업 Q.ai를 20억달러(약 3조원)에 인수하며 업계 이목을 끌었다. Q.ai는 얼굴 근육을 분석해 말하지 않고도 의사소통을 할 수 있는 '무성 대화 인식' 기술을 보유한 이스라엘 스타트업이다. 음성 AI 주도권을 잡기 위한 빅테크 기업 간 천문학적 인수·합병(M&A) 경쟁도 격화되고 있다. 가장 먼저 거액을 베팅하며 포문을 연 것은 MS다. MS는 2022년 의료 특화 대화형 AI 기술을 보유한 뉘앙스(Nuance)를 197억달러(약 29조원)에 인수하며 일찌감치 음성 AI 기술의 발판을 마련했다. 오픈AI 역시 지난해 5월 스크린 없는 AI 전용 기기와 인터페이스를 개발하는 스타트업 io를 65억달러(약 10조원)에 인수했다.

마크 저커버그가 이끄는 메타의 행보도 매섭다. 메타는 지난해 음성인식·처리와 관련된 유망 스타트업 플레이AI, 웨이브폼스, 리미트리스를 연달아 인수한 데 이어, 같은 해 12월에는 음성을 행동으로 연결하는 에이전트 기술을 보유한 중국 스타트업 '마누스AI'를 20억달러(약 3조원)에 인수했다. 다만 중국 정부가 마누스AI의 기술을 '국가전략자산'으로 규정하고 메타의 인수를 불허해 메타는 인수 철회를 검토 중이다.

빅테크들이 이처럼 음성 기술 확보에 나서는 것은 다가올 피지컬 AI와 에이전트 시장이 음성인식 기술에 기반해 움직일 것이라는 기대 때문이다. 자율주행차와 로봇 같은 차세대 AI 제품에서는 일일이 터치하는 대신 음성으로 조작·명령을 내리는 시스템이 자리 잡을 가능성이 크다. 이에 발맞춰 빅테크들이 음성 기반 인터페이스로 전선을 이동하는 것이다.

음성 AI 산업 성장 가능성은 수치로도 증명된다. 포천비즈니스인사이트에 따르면 전 세계 음성인식 서비스 시장 규모는 올해 237억달러에서 2034년 약 1040억5000만달러로 4배 이상 팽창할 전망이다. 연평균 성장률(CAGR)이 20.3%에 달한다.

[강영운 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지