영화가 현실로…‘보고 듣고 말하는 AI’ 나온다

김명근 스포츠동아 기자 2024. 5. 20. 10:00
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

영화 'her' 속의 '사만다', '아이언맨' 시리즈의 '자비스' 같은 '보고, 듣고, 말하는' 인공지능(AI)이 온다.

글로벌 빅테크 기업들이 최근 한층 강화된 멀티모달 AI 기술을 연이어 공개했다.

구글은 이날 멀티모달 AI 에이전트 비전을 담은 '프로젝트 아스트라'도 공개했다.

구글은 이런 멀티모달 기술을 기반으로 모바일 기기나 스마트 안경을 통해 언제 어디서든 전문적인 도움을 제공하는 미래 AI 비서를 구현한다는 계획이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

한층 강화된 멀티모달 AI 기술 연이어 공개
구글 ‘제미나이’ 최신 버전 선보여
대화하듯 더 복잡한 검색도 가능
오픈AI 새모델 GPT-4o 베일벗어
사람표정 읽거나 수학문제 풀수도
14일(현지시각) 미국 캘리포니아 마운틴뷰에서 열린 연례 개발자 회의 ‘구글 I/O 2024’에서 새로운 AI를 소개하고 있는 순다 피차이 구글 CEO. 사진제공|구글
영화 ‘her’ 속의 ‘사만다’, ‘아이언맨’ 시리즈의 ‘자비스’ 같은 ‘보고, 듣고, 말하는’ 인공지능(AI)이 온다. 글로벌 빅테크 기업들이 최근 한층 강화된 멀티모달 AI 기술을 연이어 공개했다. 멀티모달이란 텍스트를 인식해 텍스트로 답하던 것에서 벗어나 청각이나 시각 등 다양한 데이터를 이해하고 처리할 수 있는 AI를 말한다. 여기에 추론 성능과 반응 속도도 높여 마치 사람과 대화하 듯 정보를 얻을 수 있다.

●‘멀티모달’이란

텍스트를 인식해 텍스트로 답하던 것에서 벗어나 청각이나 시각 등 다양한 데이터를 이해하고 처리할 수 있는 AI ●구글 ‘제미나이’ 검색에 적용

구글은 14일(이하 현지시각) 미국 캘리포니아 마운틴뷰에서 연례 개발자 회의 ‘구글 I/O 2024’를 열고 새로운 AI 기술을 대거 선보였다.

먼저 구글은 이날 AI모델 ‘제미나이’의 다양한 최신 버전을 공개했다. 최상위 모델인 ‘제미나이 1.5 프로’의 경우 데이터 및 알고리즘 개선을 통해 코드 생성, 논리적 추론 및 계획, 멀티턴 대화, 오디오 및 이미지 인식 성능이 크게 향상됐다는 것이 구글 측 설명이다.

구글은 이날 검색 등 다양한 서비스에 ‘제미나이’를 탑재한다고도 밝혔다. 구글 검색에 새 제미나이 모델을 결합하면 단순 단어 검색을 넘어 AI 챗봇과 대화하듯 더욱 복잡한 검색도 가능하다. 또 이미지 검색을 넘어 비디오 검색까지 가능해질 전망이다.

구글은 이날 멀티모달 AI 에이전트 비전을 담은 ‘프로젝트 아스트라’도 공개했다. 일부 기능을 연내 제미나이 앱 등에 선보일 예정이다. 프로젝트 아스트라는 텍스트, 이미지, 영상, 음성 등 다양한 정보를 이해하고 처리하는 능력을 갖춘 AI 에이전트를 개발하는 프로젝트다. 특히 음성 모델을 활용해 자연스러운 대화와 빠른 반응 속도를 구현하는 데 집중했다. 구글은 이런 멀티모달 기술을 기반으로 모바일 기기나 스마트 안경을 통해 언제 어디서든 전문적인 도움을 제공하는 미래 AI 비서를 구현한다는 계획이다. ●오픈AI는 ‘GPT-4o’ 공개

오픈AI는 이보다 하루 앞선 13일 새 AI모델 ‘GPT-4o’를 공개했다. GPT-4o에서 ‘o’는 ‘모든’을 뜻하는 ‘옴니’(omni)의 앞글자에서 따왔다. GPT-4o는 기존에 비해 처리 속도가 2배가량 빨라진 것이 특징이다. 음성 반응 속도가 빠른 경우 232ms(밀리초·1000분의 1초), 평균 320ms로, 사람이 실제로 대화할 때와 비슷한 수준을 구현했다. 이를 통해 보다 자연스러운 대화가 가능하다는 게 오픈AI 측 설명이다. 또 새로운 AI는 문자는 물론 이미지와 음성을 모두 인식한다. 카메라를 이용해 사람의 얼굴 표정을 읽거나, 수학문제를 풀 수도 있다.

김명근 스포츠동아 기자 dionys@donga.com

Copyright © 스포츠동아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?