GPT-4 넘은 제미나이…구글, AI 주도권 되찾나
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
구글이 새로운 영상 생성형 인공지능(AI) 모델을 공개했다.
지난달 25일 구글은 영상 생성 AI '루미에르'를 선보였다.
기존에 공개된 영상 생성 AI에 비해 진보된 성능이란 평가를 받으며 학계와 업계의 관심을 끌고 있다.
기존의 영상 생성 AI는 시간-초해상도(TSR)를 사용했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
챗봇 평가서 GPT-4보다 우수
영상 만드는 '루미에르'도 공개
구글이 새로운 영상 생성형 인공지능(AI) 모델을 공개했다. 챗GPT로 시장의 게임 체인저가 된 오픈AI에 가려졌던 구글의 AI 역량이 다시 주목받고 있다.
지난달 25일 구글은 영상 생성 AI ‘루미에르’를 선보였다. 기존에 공개된 영상 생성 AI에 비해 진보된 성능이란 평가를 받으며 학계와 업계의 관심을 끌고 있다. 루미에르에는 구글이 개발한 신기술인 ‘시공간 U-넷’이 적용됐다. 영상 전체를 한 번에 처리하는 기술이다.
기존의 영상 생성 AI는 시간-초해상도(TSR)를 사용했다. 몇 개의 기준 프레임을 만들고 그 사이를 채워 시간해상도를 높여 영상을 제작하는 방식이다. 시간해상도는 관측이 얼마나 자주 이뤄지는지를 의미한다. 프레임 수가 많은 영상은 시간해상도가 높다.
예를 들어 AI를 통해 팔을 들어 올리는 영상을 제작한다고 하자. 기존의 영상 생성 AI는 팔을 내린 상태의 프레임과 팔을 올린 상태의 프레임만 존재하는 영상을 만든다. 이는 시간해상도가 낮은 영상이다. 영상의 시간해상도를 높이려면 두 프레임 사이에 들어가는 이미지를 보간(interpolate)해야 한다. 이 보간 과정이 TSR이다. 구글은 시공간 U-넷을 통해 TSR을 생략했다. 일부 프레임을 만든 뒤 이미지 사이를 보간하는 방식이 아니라 전체 영상을 한 번에 만든다. 따라서 프레임 사이를 보간하는 과정에서 발생할 수 있는 오류가 없어진다. 시공간 U-넷은 편집 자유도도 높다. 영상 스타일을 바꾸거나, 영상의 일부만을 재구성할 때 더 나은 성능을 보인다.
다만 영상의 길이가 짧고 해상도가 낮다는 한계가 있다. 루미에르는 5초 길이의 1024×1024픽셀 비디오만 생성할 수 있다. 유명인 합성과 같은 오용 사례 방지책도 아직 확보되지 않았다.
오픈AI는 2022년 챗GPT 공개 이후 AI 시장을 주도해왔다. 구글은 이런 변화에 상대적으로 대응이 늦었다는 업계 평가가 있었다. 그러나 최근 다양한 모델과 서비스를 발표하며 AI 분야에서의 건재함을 과시하고 있다. 구글은 범용 AI 모델인 ‘제미나이’를 지난해 공개했다. 이 중 제미나이 프로 모델은 지난달 27일 AI의 성능을 비교하는 허깅페이스의 ‘챗봇 아레나 리더보드’에서 오픈AI의 GPT-4 점수를 능가했다.
황동진 기자 radhwang@hankyung.com
Copyright © 한국경제. 무단전재 및 재배포 금지.
- '200억' 아파트가 온다…진짜 부자동네 압구정 '기대만발'
- "해킹 돕는 '다크 챗GPT' 확산…보안 외면하면 대기업도 망한다"
- '로또 분양' 메이플자이 최대 대출 받으려면 … 연봉 1.3억 넘어야
- 독일 은행까지 "3500명 나가라"…'미국 공포' 심상치 않다
- "오빠, 5만원만"…여자인 척 장애인 상습 갈취한 남성
- 랄랄, 혼전임신 고백 "예랑 이동욱 닮아…영화과 출신 모델"
- 손흥민, 승부차기 전 심판에 따졌다…"왜 규정대로 안 해요?"
- 주호민 "특수교사 A씨, 위자료 달라고"…선처 철회 이유
- '조민 vs 정유라' 엇갈린 운명…"후원금 NO"·"영치금 도와달라"
- "젊어지고 싶어"…호적 만들어 48세 행세한 73세 일본 여성