텍스트 입력 → 동영상 생성… AI전쟁, 이젠 ‘멀티’ 싸움

‘멀티모달 AI’ 앞다퉈 선보여
도쿄 거리를 걷는 여성 입력하면…선글라스-가죽재킷 여성 동영상
텍스트 중심서 이미지-소리 등 다양한 형태 데이터 이해하고 처리
오픈AI-구글 등 프로그램 속속 공개

글로벌 주요 빅테크 기업들의 인공지능(AI) 경쟁이 불붙고 있다. 기존 텍스트 중심의 AI에서 이미지, 소리, 영상 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 AI(멀티모달 AI)가 속속 등장하면서 경쟁이 가속화하는 것이다. 이른바 ‘멀티모달 AI 전쟁’인 셈이다.

챗GPT 개발사인 오픈AI가 먼저 포문을 열었다. 15일(현지 시간) 오픈AI는 블로그를 통해 한 여성 모델이 도시의 밤거리를 걷는 59초짜리 동영상을 공개했다.

영상에 등장한 여성은 붉은색 긴 원피스에 검은색 가죽재킷을 입고 밤거리를 걷고 있다. 거리의 휘황찬란한 광고 불빛 때문에 밤중에 선글라스를 꼈지만 전혀 어색하지 않다. 여성의 얼굴이 점점 클로즈업되자 잔머리와 피부의 잡티, 목주름도 보인다.

도시의 밤거리를 걷는 여성 모델을 고화질 카메라로 촬영한 것처럼 보이지만 사실은 ‘소라(Sora)’라는 AI 시스템이 만든 영상이다. 소라는 사용자가 입력한 텍스트를 최대 1분짜리 동영상으로 만들어 주는 ‘텍스트 투 비디오’ 멀티모달AI다. 이 영상도 ‘도쿄 거리를 걷는 여성’이라는 키워드를 입력해 만든 것이다.

오픈AI에 따르면 소라는 텍스트만으로 동영상을 생성할 수 있고 기존의 이미지를 동영상으로 만들 수도 있다. 기존 동영상을 확장하거나 누락된 프레임을 채우는 것도 가능하다. 오픈AI는 “소라는 여러 캐릭터와 특정 유형의 동작, 피사체와 배경의 정밀한 디테일이 담긴 복잡한 장면을 생성할 수 있다”며 “언어에 대한 깊은 이해를 갖추고 있어서 사용자가 텍스트로 요구한 내용뿐 아니라 생생한 감정까지 표현하는 매력적인 캐릭터를 생성할 수 있다”고 밝혔다.

구글도 질세라 오픈AI와 같은 날 자체 개발한 멀티모달 AI ‘제미나이 1.5 프로’를 공개했다. 구글에 따르면 제미나이 1.5 프로는 중형 멀티모달 모델로, 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 작업을 수행한다. 구글은 제미나이를 AI가 학습한 데이터의 규모에 따라 나노, 프로, 울트라 등 3가지로 나누고 있다. 데미스 허사비스 구글 딥마인드 최고경영자(CEO)는 “(제미나이 1.5 프로는) 긴 문맥을 이해할 수 있는 뛰어난 기능을 제공한다”며 “1시간 분량의 영상, 11시간 분량의 음성, 3만 줄 이상의 코드 및 70만 개가 넘는 단어 등을 포함해 방대한 양의 정보를 한 번에 처리할 수 있다”고 밝혔다. 구글에 따르면 제미나이 1.5 프로에 미국 배우 버스터 키턴의 44분짜리 무성 영화를 제공하면 주요 줄거리를 분석하는 것은 물론이고 놓치기 쉬운 세부 내용까지 파악할 수 있다.

앞서 지난해 11월 메타는 이미지 편집 및 비디오 생성 AI인 ‘에뮤’를 공개했다. 이용자가 텍스트나 참조 이미지를 입력하면 비디오를 생성한다. 또 텍스트로 변경하고 싶은 내용을 입력하면 요청한 대로 이미지를 수정해 준다.

LG는 2021년 12월 멀티모달 AI인 ‘엑사원’을 선보였고, 지난해 7월에는 한 단계 진화한 전문가 특화 모델인 ‘엑사원 2.0’도 발표했다. 상위 1% 전문가의 AI를 표방하는 엑사원 2.0은 LG 계열사와 국내외 파트너사를 통해 확보한 특허, 논문 등 약 4500만 건과 이미지 3억5000만 장을 학습했다.

서민준 KAIST AI대학원 교수는 “빅테크 기업들의 멀티모달 AI 경쟁은 계속될 것으로 보인다”며 “예컨대 텍스트 투 비디오 모델은 메타, 구글 등에서 이미 개발하기도 했는데 결국 중요한 것은 얼마나 기술의 수준을 높여 이용자를 만족시키느냐일 것”이라고 말했다.

김하경 기자 whatsup@donga.com
남혜정 기자 nhj0607@donga.com
홍석호 기자 will@donga.com

동아일보

경제

텍스트 입력 → 동영상 생성… AI전쟁, 이젠 ‘멀티’ 싸움