“글로 쓰는 게 훨씬 편해”… 생성형 AI 부상에 불편한 음성인식 AI 설자리 잃어

이소연 기자 2023. 7. 10. 06:02
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

MS CEO, 음성인식 AI에 “바위처럼 멍청하다” 혹평
구글, 제3자 서비스에 연동해 음성인식 서비스 제공 중단
아마존, 알렉사로 대규모 적자 보자 관련 인력 해고
”문장 기반으로 명령 인식… 특정 문장에만 대답”
아마존 알렉사./AP 연합뉴스

“바위처럼 멍청하다.”

사티아 나델라 마이크로소프트(MS) 최고경영자(CEO)는 지난 3월 파이낸셜타임스(FT)와의 인터뷰에서 음성인식 인공지능(AI) 서비스에 대해 이렇게 혹평했다. 그는 “코타나(MS의 음성인식 AI 서비스), 아마존 알렉사, 구글 어시스턴트, 애플 시리가 많은 정보를 전달할 수 있는 새로운 제품이 되길 기대했으나, 제대로 작동하지 않았다”라고 했다.

한때 뜨거운 관심을 받았던 음성인식 AI 서비스들이 챗GPT를 필두로 생성형 AI가 인기를 끌자 설자리를 잃어가고 있다. AI 시장의 중심이 음성에서 텍스트 기반으로 옮겨가고 있는 데다 오작동이나 불편한 사용자 환경이 음성인식 AI 서비스의 몰락을 가져왔다.

◇ 구글, 제3자 서비스 연동 음성인식 서비스 중단

10일 IT업계에 따르면 구글은 지난달 20일부터 구글이 아닌 제3자 서비스에 연동돼 음성인식 서비스를 제공하던 구글 어시스턴트 기능을 중단했다. 이는 구글 어시스턴트를 활용해 각종 서비스를 제공하던 애플리케이션(앱)들이 구글의 음성인식 기능을 활용하지 못하게 됐다는 것을 의미한다.

쇼핑 목록 관리 앱 애니리스트는 지난 5월 자사 블로그를 통해 “우리 고객들이 구글 어시스턴트와 연동해 애니리스트를 활용하면서 많이 의존하고 있었는데, 이 기능이 사라진다는 점이 매우 실망스럽다”라고 했다.

구글은 지난 5월 연례 개발자 콘퍼런스(I/O)에서 대화형 AI ‘바드’를 공개했지만, 이 행사에서 구글 어시스턴트 관련 주요 업데이트 내용은 없었다. 2016년 행사 당시만 해도 구글 어시스턴트는 주인공 역할을 했다.

음성인식 AI 서비스 ‘알렉사’를 앞세웠던 아마존도 상황은 마찬가지다. 아마존은 알렉사가 별다른 수입원을 찾지 못하자 지난해 말 알렉사 관련 업무 인력을 해고했다. 미국 경제매체 비즈니스인사이더에 따르면 알렉사 서비스와 비디오 스트리밍 서비스 등을 담당하는 월드와이드 디지털 부문은 지난해 30억달러(약 3조9150억원)의 영업손실을 기록했으며, 대다수 적자는 알렉사가 낸 것으로 알려졌다.

국내 서비스들도 하나둘씩 시장에서 퇴출되는 분위기다. NHN벅스는 2020년부터 벅스 앱에서 제공했던 음성 명령 서비스를 지난달 종료했다. 음원 앱 내 음성 명령 서비스란 ‘아이유 좋은 날 음악 틀어줘’ 등 음성 명령으로 음악을 재생해주는 서비스다. 멜론도 2017년부터 제공됐던 음성 명령 서비스를 작년 말 중단했다. 양사 관계자는 “음성 명령 서비스는 사용률이 저조해서 서비스 제공을 중단하게 됐다”라고 설명했다.

구글 어시스턴트가 탑재된 구글 홈 AI 스마트 스피커./ 구글 사이트 캡쳐

◇ 음성인식 AI, 날씨 확인·음악 재생 등 역할 한계

전문가들은 음성인식 AI 서비스가 생성형 AI 챗봇과 달리 특정 분야에 한정된 답변만을 제공하면서 소비자가 외면하게 됐다고 분석했다. 다양한 주제에 대해 답변을 제공하는 챗GPT와 달리, 음성인식 AI는 날씨 확인, 음악 재생, 문자메시지 보내기 등 단순한 역할만 수행할 수 있다. 이 같은 기능을 위해 이용자들이 비용을 지불할 리가 없다는 것이다.

이 같은 문제가 발생하는 이유는 음성인식 AI 모델은 개발될 때부터 한정된 분야의 특정 문장에 대해서만 대응할 수 있도록 설계됐기 때문이다. 챗GPT처럼 방대한 데이터를 모두 학습한 것이 아니라, 소비자가 AI 비서에게 간단하게 주문할 만한 내용만 학습했다는 것이다.

김명주 서울여대 정보보호학과 교수는 “텍스트 기반 생성형 AI의 경우 음절·단어 단위로 사람의 명령을 인식하고, 문맥까지 정확하게 파악할 수 있다”면서 “반면 음성인식 AI는 문장을 기반으로 명령을 인식하기 때문에, 정확하게 일치하는 특정 문장에만 대답할 수 있다. AI 모델 자체가 챗GPT 등과 비교해 상대적으로 가벼워 한계가 있다”라고 했다.

일각에선 텍스트에 익숙한 젊은 세대와 음성이 아닌 키보드를 주로 사용하는 기업간거래(B2B) 소비자에게 텍스트 기반 AI가 더 매력적이라는 분석도 나온다. 전화 통화보다 메시지에 익숙한 MZ세대들은 통화를 두려워 하기에 전화 공포증을 의미하는 콜 포비아(Call-phobia)라는 신조어까지 탄생했다.

포브스는 “메시지, 이메일, 인스타그램 다이렉트 메시지(DM)로 가득한 세상에서 시간을 갖고 답변을 할 수 있는 텍스트와 달리 전화는 즉각적인 답변을 요구한다는 점에서 부담으로 작용한다”라고 했다.

박진호 서울대 AI연구원 부원장(국어국문학과 교수)은 “50대 이상은 음성인식 기능이 더 편리할 수도 있지만 젊은 세대는 주변을 신경쓰지 않고 타이핑하는 것을 더 편리하게 생각한다”라며 “기업용 소프트웨어에 AI 기능을 탑재하려면 음성보다는 텍스트 기반으로 기능을 구현하는 것이 더 유리할 것”이라고 했다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?