AI 앞에 자꾸 붙는 수식어 ‘멀티모달’의 정체는
WEEKLY BIZ 뉴스레터 구독하기 ☞ https://page.stibee.com/subscriptions/146096
글로벌 빅테크 기업들이 ‘멀티모달’ 인공지능(AI) 시장에서 치열한 경쟁을 벌이고 있다. 오픈AI는 지난해 9월 이미지 생성형 AI인 ‘달리(DALL-E)3′를 내놓으며 멀티모달 AI를 선보였다. 구글은 지난해 12월 대규모 언어모델(LLM) AI ‘제미나이’를 내놓으며 멀티모달 모델로 소개했다. 멀티모달이란 단어가 마치 ‘약방에 감초’처럼 AI 앞에 붙는 추세다.
◇Q1. 멀티모달이란 뭔가
멀티모달이란 단어는 복수란 뜻의 ‘멀티(Multi)’와 인간이 정보를 받아들이는 방식을 뜻하는 ‘모달(Modal)’이 합쳐져 만들어졌다. 시각, 청각, 촉각, 미각 등 다양한 감각을 통해 정보를 파악한다는 의미다. 인텔은 홈페이지에서 멀티모달이란 개념을 인간이 사과를 이해하는 방식에 빗대 설명했다. 인간이 사과의 색상·모양 같은 시각 정보는 물론, 물었을 때 ‘사각’ 하고 나는 청각 정보, 사과 파이의 맛과 같은 미각 정보 등을 종합해 사과란 개념을 파악하듯 AI도 음성, 이미지 등 다양한 인터페이스로 정보를 주고받게 됐다는 것이다.
◇Q2. 기존 AI와 어떻게 다른가
기존 AI는 글로 남겨진 텍스트 데이터를 학습한 단일모달(Uni-Modal) AI 위주로, 지시하는 사람이 원하는 정보를 찾아주는 게 주된 기능이었다. 하지만 멀티모달 AI가 텍스트뿐 아니라 음성과 이미지, 영상 등 다양한 유형의 정보를 통합해 학습하고 처리하게 되면서 인상파 화가의 그림체를 활용한 그림책 등과 같은 산출물을 낼 수 있게 됐다.
◇Q3. 멀티모달 AI, 왜 필요한가
만약 ‘남자가 말을 타고 있다’는 문장을 AI에 글로 설명한다고 가정해보자. 삼성SDS의 ‘인간처럼 사고하는 멀티모달’ 리포트에 따르면, AI는 이 같은 문장에서 말이 얼마만 한 크기인지, 어떤 방식으로 탄다는 건지 알아챌 수가 없다. 텍스트 위주의 단일모달 AI는 통계나 텍스트를 검색해 답변을 내놓을 순 있지만, 인간과 같은 사고를 하는 덴 한계가 있다는 얘기다. 그래서 AI가 세상을 인식해 사람과 자연스레 소통하려면 멀티모달 AI의 등장은 필수였다는 지적이다.
◇Q4. 그래서 어떤 게 가능해지나
멀티모달 AI는 텍스트, 동영상, 음성 등을 동시에 생성할 수 있다. 그래서 단순한 텍스트 위주의 답변을 넘어 동영상이나 영화를 쉽게 만들어 낼 수 있게 된다. 김정호 KAIST 전기·전자공학과 교수는 “유튜브가 AI로 만든 동영상으로 가득 차는 시대가 올 수 있다”며 “인간을 유혹하기 위한 숏폼 동영상도 멀티모달 AI가 쉽게 만들어낼 것으로 예측한다”고 했다.
◇Q5. 미래엔 어떻게 발전할까
멀티모달 AI를 통해 차량 속도, 차선, 날씨 등이 종합적으로 파악되면 자동차 자율주행 기능은 진일보할 수 있다. 환자 데이터와 신체 이미지를 통해 환자 개개인에게 보다 적합한 의료 서비스도 가능해질 수 있다. CCTV 영상과 경찰 보고서 등으로 범죄 예측을 하는 등 멀티모달 AI는 다양한 분야에서 쓰임새가 커질 것이란 예상이다.
WEEKLY BIZ 뉴스레터 구독하기 ☞ https://page.stibee.com/subscriptions/146096
Copyright © 조선일보. 무단전재 및 재배포 금지.