스피커·카메라·앱까지 쓰는 스마트폰 비서···빅테크 생태계 경쟁 가속

김윤수 기자 2024. 5. 15. 06:06
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구글, 새 AI 비서 ‘프로젝트 아스트라’ 공개
보고 듣고 말하고 앱 활용 ‘멀티모달’ 능력 추가
오픈AI는 GPT4o···시리·빅스비·하이퍼X도 맞대응
생성형AI 타고 IPTV·스피커 등도 음성비서 부활
스마트폰 위주 발전에 AI핀 등 新기기 입지 모호
[서울경제]

구글 어시스턴트, 애플 시리, 삼성전자 빅스비, 오픈AI의 챗GPT 같은 스마트폰의 인공지능(AI) 비서가 빅테크 기업들의 앞다툰 기술 고도화 덕에 점점 똑똑해지고 있다. 지난해 챗GPT처럼 챗봇 위주로 확산됐던 생성형 AI 서비스가 음성과 비전(시각정보)으로도 데이터를 학습하고 이용자와 자연스럽게 소통할 수 있는 멀티모달(다중모델) 기반 개인비서로 발전하는 양상이다.

구글이 14일(현지시간) 연례 개발자회의 I/O에서 새로운 AI 비서 ‘프로젝트 아스트라’를 공개했다. 스마트폰 카메라를 통해 비춘 사물의 모델명과 특징을 아스트라가 음성으로 설명하는 모습. 사진 제공=구글

구글은 14일(현지시간) 연례 개발자회의 I/O를 열고 새로운 AI 비서 ‘프로젝트 아스트라’를 공개했다. 아스트라는 기존 음성비서 ‘구글 어시스턴트’와 달리 자체 생성형 AI 모델 ‘제미나이’를 기반으로 텍스트와 음성은 물론 카메라를 통한 비전 데이터까지 처리할 수 있는 멀티모달 서비스다. 구글의 시연 과정에서 사람이 스마트폰 카메라로 비춘 임의의 사물인 스피커에 대해 아스트라는 ‘트위터(tweeter)’라는 제품명과 함께 “그것은 고음역대의 소리를 낸다”는 특징을 자막과 음성으로 설명했다.

구글은 올해 말 제미나이를 지원하는 애플리케이션 같은 자사 제품에 아스트라를 도입할 계획이다. 이를 통해 지메일, 구글 문서, 캘린더 같은 앱에서 이용자의 정보를 가져와 일정 관리를 돕는 등의 비서 기능을 구현할 전망이다. 아스트라 계획의 전 단계로 역시 멀티모달 기능을 갖춘 ‘제미나이 라이브’를 수개월 내 출시할 계획이다. 구글은 새로운 고성능 멀티모달 ‘제미나이 1.5 프로’와 경량화 멀티모달 ‘제미나이 1.5 플래시’도 이날 함께 공개했다. 회사는 “사람들이 (아스트라가 탑재된) 스마트폰이나 글래스(안경형 기기)를 통해 전문가 수준의 AI 비서를 가지는 미래를 쉽게 상상할 수 있다”며 "제미나이 생태계의 완성으로 AI 혁신을 가속화해나갈 계획이다"고 했다.

전날 오픈AI도 기존 챗GPT 등 언어모델 기반 서비스를 고도화할 수 있는 새로운 생성형 AI 멀티모달 ‘GPT4o’를 선보였다. 기존 언어모델인 ‘GPT4’와 비교해 텍스트뿐 아니라 이미지를 생성할 수 있으며 향후 음성과 영상을 통한 대화 기능도 지원되는 멀티모달이라는 점이 가장 큰 특징이다. 기존 마이크로소프트(MS) 등 동맹에 앞서 맥OS용 PC 앱을 먼저 지원하며 애플과도 협력을 추진한다. 연말에는 MS 윈도용 앱도 지원한다.

애플 역시 다음 달 열릴 연례 개발자회의 WWDC에서 음성비서 시리의 생성형 AI 관련 고도화 계획을 발표할 것으로 알려졌다. 애플은 하반기에 첫 AI 스마트폰 ‘아이폰16’ 출시를 앞두고 현재 구글, 오픈AI와 협력을 논의 중인 만큼 아이폰이 두 회사의 고성능 AI 비서를 지원할 가능성도 점쳐진다. 국내에서는 최근 삼성전자가 빅스비에 생성형 AI를 도입하고 가전 제품에 먼저 관련 기능을 지원하겠다는 계획을 밝혔다. 갤럭시 스마트폰 역시 순차적으로 지원할 것으로 보인다. 네이버도 지난해 말 AI 비서 ‘하이퍼X’에 멀티모달 기능을 추가하며 관련 트렌드에 대응 중이다.

AI 비서, 특히 챗봇 형태를 벗어난 음성비서는 스마트폰뿐 아니라 인터넷(IP)TV나 AI 스피커 같은 다양한 분야에서 활용이 늘고 있다. 과거 AI 스피커가 낮은 인식률과 제한된 기능으로 점차 외면받았지만 생성형 AI의 도움으로 성능이 크게 개선된 덕이다. 대표적으로 SK텔레콤·KT·LG유플러스 등 통신 3사는 채팅 대화가 힘든 IPTV 이용 시 콘텐츠를 추천하고 검색하고 재생해주는 음성비서 ‘미디어 에이전트’ 출시를 각자 준비 중이다. 또 SK텔레콤은 관공서 등의 외국인 관광객용 통역 스크린에도 음성비서를 탑재한 솔루션 ‘트랜스 토커’를 최근 선보였고 KT는 스피커 ‘기가지니’에 자사 AI모델 ‘믿음'을 탑재했다. LG유플러스는 IPTV에 ‘익시 음성검색’을 최근 추가했다.

최근 또 하나의 음성비서 기술 트렌드로 주목받은 ‘래빗R1’, ‘AI핀’ 같은 AI 비서 기능에 특화한 AI 기기 역시 이 같은 기술 발전의 수혜를 입을지도 관심이 모인다. 이 역시 점차 발전하는 생성형 AI 기술이 적극 활용된다면 휴대성을 살려 스마트폰 시장이 틈새를 노릴 수 있겠지만, 반대로 구글·애플·삼성전자가 스마트폰 중심의 자사 생태계를 공고히 한다면 스마트폰에 비해 특장점을 갖기 어려울 것으로 보인다.

현재 구글·애플·삼성전자는 자사 OS, 앱, 하드웨어 등 제품 중심으로 생성형 AI 비서를 활용하는 모습이며, AI핀에 GPT4를 탑재한 오픈AI 역시 애플·MS 등과 먼저 GPT4o 관련 협력을 추진하는 상황이다. 구글의 새로운 AI 비서 출시 계획을 언급한 외신 더버지는 “래빗R1, AI핀 같은 기기들에게 나쁜 소식이 될 수 있다”고 했다. SK텔레콤은 앞서 휴메인과 업무협약(MOU)을 맺고 자체 AI 비서 ‘에이닷’을 AI핀에 탑재하고 국내 출시를 검토한다고 밝혔지만, 현재 AI 기기의 애매한 포지션 탓에 계획을 숙고하는 중이며 빠른 시일 내 제품을 국내 출시할 가능성은 낮은 것으로 전해졌다.

김윤수 기자 sookim@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?