낙서 그림으로도 영화 속 장면 찾아내는 제미나이1.5…30배 빠르다

윤주영 기자 2024. 2. 19. 06:20
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

구글의 최신 인공지능(AI) '제미나이(Gemini) 1.5'는 전작 대비 30배 빠른 정보처리 속도를 앞세워 문서·영상 등을 해석한다.

19일 업계에 따르면 구글은 최근 멀티모달 AI 제미나이 1.5를 공식 블로그를 통해 공개했다.

구글 공식 유튜브에는 제미나이1.5가 버스터 키튼 감독의 '셜록 주니어'라는 무성영화를 해석하는 시연이 올라오기도 했다.

영화를 분석한 제미나이 1.5에 "주머니에서 종이를 꺼내는 순간을 찾고 주요 정보를 요약해 줘"라고 명령했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

텍스트뿐 아니라 영상도 해석하는 '멀티모달 기능' 갖춰
구글의 멀티모달 AI 제미나이1.5가 버스터 키튼 감독의 '셜록 주니어'라는 무성영화를 해석하고 있다. 시연자가 그린 조악한 낙서에 해당되는 장면을 찾아내는 모습.(구글 공식 유튜브 영상 갈무리)

(서울=뉴스1) 윤주영 기자 = 구글의 최신 인공지능(AI) '제미나이(Gemini) 1.5'는 전작 대비 30배 빠른 정보처리 속도를 앞세워 문서·영상 등을 해석한다. 조악한 낙서 등 추상적 명령도 이해해 자료에서 그에 해당하는 부분을 맥락에 맞게 찾아낸다.

19일 업계에 따르면 구글은 최근 멀티모달 AI 제미나이 1.5를 공식 블로그를 통해 공개했다.

제미나이 1.5는 지난해 12월 울트라·프로·나노 3가지 사양으로 공개된 제미나이 1.0의 개선판이다.

동시 토큰 처리수를 늘려 긴 문맥의 자료를 빠르게 처리하는 데 방점을 뒀다. 토큰은 문서, 영상 등 데이터가 지닌 최소 의미 단위다.

제미나이 1.5는 최대 100만 개의 토큰을 동시 처리한다. 전 세대 프로 모델과 비교 시 30배 정도 빠르다. 전 세대 울트라와 비교 시 성능은 유사하지만 더 적은 컴퓨팅 자원을 소모한다.

선다 피차이 구글 최고경영자(CEO)는 "이번 모델은 긴 문맥을 이해하는 데 있어 획기적인 발전을 이뤄냈다"며 "최대 100만 개 토큰을 연속으로 처리해 정보 처리량을 극대화했다"고 설명했다.

이번 모델은 텍스트뿐 아니라 영상, 음원 등 시청각 데이터를 처리하는 멀티모달 기능을 지원한다.

구글 공식 유튜브에는 제미나이1.5가 버스터 키튼 감독의 '셜록 주니어'라는 무성영화를 해석하는 시연이 올라오기도 했다. 44분 길이의 이 영화는 토큰으로 환산 시 약 70만 개 분량이다.

영화를 분석한 제미나이 1.5에 "주머니에서 종이를 꺼내는 순간을 찾고 주요 정보를 요약해 줘"라고 명령했다. 모델은 1분 내로 전당포 티켓이 주머니에서 꺼내지는 장면을 집어냈다. 촬영된 티켓의 시각적 정보를 파악해 티켓 서명한 등장인물까지 부연했다.

사람이 그린 조악한 낙서도 명령으로서 이해했다.

시연 팀은 물탱크에서 쏟아지는 물을 맞는 사람을 조악한 낙서로 그려 제미나이에 보여준 뒤 "이 순간이 언제야"라고 물었다.

이 명령에도 제미나이는 1분 내로 해당 장면에 해당하는 영상 시간대를 답했다.

legomaster@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사에 대해 어떻게 생각하시나요?