불붙는 ‘AI 비서’ 개발 경쟁, 오픈AI GPT-4o vs 구글 아스트라 승자는?

얼굴 표정에 반응하는 GPT-4o… 아스트라, 물체 기억하고 찾아내

영화 ‘아이언맨’ 속 ‘자비스’ 같은 전문 인공지능(AI) 비서의 등장이 현실로 다가오고 있다. [네이버영화]

5월 13일(현지 시간) 오픈AI가 챗GPT의 새 버전 'GPT-4o'를 공개한 데 이어, 구글 또한 새로운 AI 모델 '프로젝트 아스트라'(아스트라)를 발표했다. 둘 다 사용자가 텍스트는 물론, 음성이나 영상을 통해 소통이 가능하다는 공통점이 있다. 이러한 GPT-4o와 아스트라의 등장으로 'AI 비서' 개발 경쟁이 다시금 불붙고 있다.

인간 같은 AI 등장

오픈AI가 발표한 GPT-4o는 GPT-4에 '모든'을 뜻하는 '옴니(omni)'의 'o'를 붙인 이름이다. 이 이름처럼 GPT-4o는 텍스트, 비디오, 오디오, 음성을 모두 처리하는 전천후 AI다. 이전 모델에 비해 답변 처리 속도가 2배 빨라졌으며, 음성 반응 속도 또한 평균 320밀리초(1밀리초=0.001초)로 향상됐다. 실시간에 가까운 속도로 반응할 수 있게 되면서 현실감 있는 AI로 진화했다. 실제 GPT-4o 사용 모습을 보면 시리나 빅스비, 알렉사 같은 기존 AI 비서에 비해 훨씬 강력하다. 단순한 대화 보조자를 넘어 훨씬 더 복잡한 프롬프트를 처리한다. 특히 카메라와 동영상을 통해 사람이나 사물을 인식하고 얼굴 표정에 반응하는 것이 눈에 띄는 변화다. 자발적으로 농담을 던지거나 노래를 부르는 등 '인간다움'까지 가미됐다. 사용자의 신체 제스처와 감정적 어조에 반응할 수 있도록 AI 기능이 매우 정교해진 결과다. 이런 GPT-4o는 매우 친근하게 느껴져서 AI가 아닌 인간과 소통하고 있다는 착각을 불러일으킨다. 실제로 GPT-4o는 영화 '그녀(Her)'에 등장한 AI 사만다에서 영감을 받아 개발된 것으로 알려졌다. 이 영화는 공허한 삶을 살던 주인공이 AI 사만다를 만나 조금씩 친밀해지면서 상처를 회복하고 행복을 되찾게 된다는 스토리다.

오픈AI가 GPT-4o를 공개한 다음날 구글이 개발자 행사에서 발표한 아스트라 또한 사람과 자연스럽게 대화할 수 있는 AI 비서다. GPT-4o가 영화 '그녀'에서 영감을 받았다면, 아스트라는 영화 '아이언맨'에 등장하는 최첨단 AI 비서 '자비스'를 떠올리게 한다. 영화에서 자비스는 전지전능한 능력으로 상황에 신속하게 대처하는 등 아이언맨을 돕는 조력자 역할을 톡톡히 해낸다. 아스트라는 인간 조력자 또는 비서라는 타이틀을 달고 있다. 구글은 정보를 검색해 답변을 제공하던 기존 AI 챗봇을 뛰어넘어 추론, 계획, 기억 능력을 보여준다는 의미에서 고급 'AI 비서(Agent)'라는 이름을 제안했다. 아스트라는 구글의 검색 기반 AI 모델인 제미나이를 기반으로 텍스트, 오디오 및 비디오 입력을 처리하도록 모델링됐다. 스마트폰 카메라를 통해 확보한 정보를 기반으로 쿼리(Query: 데이터베이스에서 원하는 정보를 검색하기 위해 요청하는 것)에 즉각 응답할 수 있다. 정교한 컨텍스트(Context) 관리 기능과 메모리 기능이 있어 사용자의 대화나 요청에 대한 처리 과정을 유지하면서 다른 개체를 식별하고, 창의적인 콘텐츠를 제공하기도 한다. 또한 잘못 배치된 항목을 수월하게 찾는다. 실제 시연 영상에서는 프로그래밍 코드와 전기 회로도를 식별하고 개선 사항을 제안하거나 사용자 물건이 어디에 있는지 정확한 위치를 기억해냈다.

추론 능력 뛰어난 GPT-4o

5월 10일 GPT-4o 시연 행사를 개최한 오픈AI. [오픈AI 제공]

GPT-4o와 아스트라의 가장 큰 공통점은 텍스트뿐 아니라 오디오, 비디오 등 다중 모드 처리가 가능해 다목적 도구로 활용될 수 있다는 점이다. GPT-4o의 다중 모드 처리 기능은 다양한 유형의 데이터를 조화롭게 구성해 사용자 경험을 향상시키는 데 초점을 맞추고 있다. 강의나 실시간 번역을 포함한 광범위한 텍스트 기능에 기반하며, 음성 처리 기술로 음성 언어를 파악하고 풍부한 음향을 생성한다. 사용자 감정에 따라 음색과 어조를 변경하는 것도 가능하다. 또 비디오 처리 기능은 창의적인 시각 콘텐츠가 필요한 교육과 오락 분야에서 유용하게 활용될 수 있다. 무엇보다 GPT-4o는 더욱 향상된 처리 속도로 인간의 감정을 포함해 다소 복잡한 이미지를 빠르게 식별하고 처리할 수 있다. 실시간 상호작용 능력은 토론, 교습 등 다양한 작업에서 사용자 경험을 확장하는 데 도움이 된다. 오픈AI의 홍보 영상을 보면 GPT-4o가 사용자에게 대수 방정식을 교습시키고, 실시간으로 시각적 문제를 추론하는 모습을 확인할 수 있다. 프로그래밍 코드를 보고 분석할 수 있을 뿐 아니라, 사용자의 데스크톱을 탐색하는 기능도 포함된 것으로 보인다. 미라 무라티 오픈AI 최고기술책임자(CTO)는 GPT-4o를 시연하는 자리에서 "인간과 기계가 상호작용하는 미래를 보고 있다"며 "GPT-4o가 이런 패러다임으로 전환 중"이라고 말했다.

AR 적용한 아스트라

아스트라에는 구글 기술력이 종합적으로 반영됐다. 구글은 최근 문서와 비디오 등 많은 양의 데이터를 처리하기 위해 제미나이를 업그레이드했다. 제미나이에 기반한 아스트라는 메모리 기능과 증강현실(AR) 기능을 더했다. 물체를 기억하고 찾는 아스트라의 능력은 매우 인상적이다. 카메라로 보고 들은 것을 기억할 수 있어 사용자가 물어보는 질문에 지체 없이 대화를 이어가는 것이 가능하다. 또한 아스트라에는 스마트폰이나 PC(개인형 컴퓨터)뿐 아니라, 스마트 안경을 비롯한 다양한 폼팩터에서 작동할 수 있는 엔지니어링 기술이 적용됐다. 구글이 오랫동안 공을 들여온 스마트 안경에 탑재된다면 실제 세계에 디지털 정보가 중첩된 AR 기술로 직관적이고 유익한 경험을 제공할 수 있을 것이다. 구글 딥마인드의 최고경영자(CEO)이자 공동 창업자인 데미스 허사비스는 블로그를 통해 "일상생활에 유용한 범용 에이전트를 구축하고 싶었다"며 "아스트라는 우리가 하는 일을 보고 들으면서 우리가 처한 상황을 이해하고 대화에 신속하게 응답함으로써 훨씬 더 자연스럽게 느껴질 수 있는 상담원 같은 역할을 할 것"이라고 말했다.

오픈AI의 챗GPT가 차기 아이폰 운영체제에 적용될 거라는 추측이 나오는 가운데 구글은 안드로이드, iOS 및 웹을 지원하는 애플리케이션(앱)에 제미나이 라이브를 추가할 예정이다. 그리고 올해 말쯤 제미나이 라이브에 아스트라의 기능 중 일부가 포함돼 사용자가 카메라를 켜고 주변 환경에 대해 이야기할 수 있을 것으로 보인다. 구글은 오픈AI에 대항하기 위한 또 다른 움직임으로 새로운 AI 플랫폼 베오(Veo)를 공개한 바 있다. 베오는 오픈AI가 개발한 소라처럼 프롬프트를 통해 영화 스타일의 짧은 비디오를 만들어내는 AI 비디오 생성기다.

이처럼 구글과 오픈AI라는 거대 빅테크 기업이 경쟁적으로 다재다능한 AI 모델을 선보이는 모습은 매우 흥미롭다. AI가 범용인공지능(Artificial General Intelligence·AGI)을 향해 발전해가면서 AI 비서 또한 급격한 변화 양상을 보이고 있다. 그 과정에서 지식이 풍부한 친구와 이야기하듯 AI 비서와 더욱 쉽게 현실적으로 대화하기를 바라는 사람의 열망 또한 점차 커지고 있다. 치라그 샤 미국 워싱턴대 정보학교 교수는 MIT 테크놀로지 리뷰를 통해 "결국 자기 자신을 가장 잘 알고 가장 많은 일을 할 수 있으며 여러 과제와 영역에 걸쳐 작업할 수 있는 하나의 에이전트를 갖게 될 것"이라고 말했다.

_{*유튜브와 포털에서 각각 '매거진동아'와 '투벤저스'를 검색해 팔로잉하시면 기사 외에도 동영상 등 다채로운 투자 정보를 만나보실 수 있습니다.}

이종림 과학전문기자

이 기사에 대해 어떻게 생각하시나요?

주간동아에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학