"이 광고는 AI가 만들었습니다"…생각하는 AI, 멀티모달 시대 성큼

메타, 텍스트 입력하면 영상 만들어주는 'Emu Video' 개발 중
네이버, 클로바X에 이미지 멀티모달 선보일 것…음성·동영상 기술도 준비

(서울=뉴스1) 손엄지 기자 = 인공지능(AI)이 사람처럼 사고하는 '멀티모달' 기술이 진화하고 있다. AI가 시나리오를 쓰고, 영상도 제작할 수 있으면서 AI로 만든 광고가 인기다. 단순히 자연어를 이해하던 AI가 동영상을 학습하고 사고하게 된다.

25일 정보기술(IT)업계에 따르면 내년에 공개할 오픈AI의 GPT-5에는 영상 제작 기능이 추가된다. 이미 연초에 공개한 GPT-4에서도 텍스트를 비디오로 변환하는 멀티모달 기술이 적용되어 있지만, 내년에 더 고도화된 기술을 선보일 계획이다.

메타는 이달 17일 텍스트를 입력하면 4초 길이의 비디오를 만들어내는 'Emu Video' 기술을 선보였다. 'Emu Edit'라는 보완 AI모델로 편집도 할 수 있다. 수정 사항은 "좀 더 천천히"라는 식으로 자연어 주문이 가능하다.

기술 상용화까지는 시간이 좀 더 걸릴 것으로 보인다.

네이버(035420)도 조만간 클로바X에 이미지 멀티모달을 선보인다. 사진을 넣고 "배경을 바다로 바꿔줘"라고 적으면 사진을 합성해주는 식이다. 향후 음성, 동영상 등 다른 멀티모달 기술도 붙여나갈 계획이다.

AI 업계는 더 많은 단어를 학습하는 경쟁을 넘어서 이미지, 동영상 등 여러 인터페이스로 정보를 주고받는 '멀티모달' 기술력을 중요하게 보고 있다.

AI의 목표는 결국 사람처럼 사고할 수 있는 기술이기 때문이다.

예를 들어 사람은 사과를 생각하면 생김새와 색깔, 맛 등을 떠올릴 수 있지만 AI는 사과라는 단어를 쓰면서도 실제 세상에는 어떤 형태로 존재하는지 이해하지 못한다. AI가 우리 세상을 제대로 인식할 수 있으려면 사람처럼 생각해야 한다. 글만 보고 영상을 떠올릴 수 있어야 하고, 영상을 보면서 글로 설명할 수 있어야 한다.

한 IT업계 관계자는 "멀티모달 AI는 사람과 동일한 방식으로 세상을 인지하면서도 더 날카롭고 정확하게 분석할 수 있다"고 설명했다.

이어 "멀티모달 기술이 완성되면 AI는 사람들에게 더 많은 편의를 줄 수 있을 것"으로 내다봤다.

현재 AI 멀티모달 기술이 널리 쓰이는 분야는 광고다. 최근 삼성생명보험(032830)은 이미지 생성 AI 미드저니를 이용해 광고를 만들었고, 베스킨라빈스는 챗GPT가 쓴 시나리오를 바탕으로 광고를 제작했다.

LG유플러스(032640)가 AI로 만든 광고 조회수는 1200만회가 넘었다.

시장조사전문 기업 블룸버그인텔리전스는 AI를 활용한 디지털 광고 산업은 지난해 5700만달러에서 2032년 1920억달러 규모로 확대될 것으로 전망했다.

eom@news1.kr

IT/과학

"이 광고는 AI가 만들었습니다"…생각하는 AI, 멀티모달 시대 성큼