텍스트 AI 시대 저문다…차세대 표준된 ‘멀티모달’[AI 7대 트렌드③]
5년 내 기업용 SW 80% 멀티모달화
앱 중심 디지털 환경 재편 가능성 나와
정부, 멀티모달 기반 독자 AI 구축 목표

텍스트 중심으로 발전해 온 생성형 AI가 멀티모달(Multimodal) 시대로 빠르게 진화하고 있다. 텍스트뿐 아니라 음성·영상·코드까지 통합적으로 처리하는 AI 모델이 새로운 표준이 되고 있기 때문이다.
기존 애플리케이션 중심의 디지털 환경도 대화형 에이전트 기반으로 재편되고 있다. 이 같은 추세 속 정부는 독자 파운데이션 AI 모델 구축 사업 등을 통해 국산 멀티모달 기술력 개발을 위해 박차를 가하고 있다.
‘오감’ 갖춘 AI…5년 내 기업용 SW 80% 장악
멀티모달 AI는 ‘눈과 귀를 가진 지능형 파트너’로 비유된다. 인간이 세상을 인지하는 방식과 유사하게 텍스트, 이미지, 음성, 영상 등 여러 가지 형태의 데이터를 동시에 이해하고 처리하는 능력을 갖추고 있어서다.
텍스트, 이미지, 음성 등 서로 다른 형태의 데이터를 모달리티라고 칭하는데 이 모든 것이 별도의 변환 과정없이 하나의 모델 안에서 통합적으로 이해·생성하는 점이 멀티모달 AI의 가장 두드러진 특징이다.
이러한 기술 향상은 단순히 기능의 추가가 아닌 ‘인지의 확장’을 뜻하기도 한다. 텍스트만으로는 설명하기 힘든 맥락을 시·청각 정보를 통해 완벽하게 파악하기 때문이다.
특히 코딩 능력이 통합되면서 AI가 직접 SW를 수정하거나 도구를 조작하는 실행력까지 갖추게 됐다.
글로벌 시장조사업체 가트너(Gartner)는 이같은 멀티모달 AI가 향후 기업용 애플리케이션을 혁신할 것으로 봤다.
가트너는 지난해 12월 보고서를 통해 “멀티모달AI는 정확성 향상, 자동화 능력 강화, 의사결정에 대한 깊은 맥락화 등의 결과를 준다. 특정 산업에 맞춘 멀티모달 생성 AI 모델은 점점 더 보편화될 것”이라며 “오는 2030년까지 기업용 소프트웨어(SW)의 80%가 멀티모달이 될 것”이라고 분석했다.
앞서 AI 에이전트가 현재 기대의 정점에 위치한 기술이라면, 멀티모달 AI는 이미 많은 글로벌 빅테크의 주요 서비스에 자연스럽게 녹아들어 에이전틱 AI 기술을 앞당기고 있다.
구글은 지난 2023년 12월 제미나이(Gemini) 2.0을 발표하며 ‘네이티브 멀티모달’이라는 표현을 강조했다. 멀티모달 AI 에이전트를 전면으로 내세운 것이다.
OpenAI도 GPT-4o를 내놓으면서 멀티모달 AI는 표준 명칭으로 빠르게 자리잡기 시작했다.
앱의 종말 가능성...대형 에이전트로 변모

멀티모달 AI 기술의 발전은 디지털 인터페이스 변화를 예고하고 있다.
전문가들은 수십 개의 앱을 일일이 설치하고 실행하던 앱 중심 시대가 가고, 하나의 대화 창에서 모든 과업을 해결하는 에이전트 중심 시대가 도래할 가능성을 제시했다.
유회준 카이스트 AI반도체대학원 교수는 “언어에 이미지까지 더해지면 사람과의 상호작용이 훨씬 부드러워지고, 의도를 확실하게 파악할 수 있다. 그래서 인터랙션에서는 주로 멀티모달 모델을 이용하려고 한다. 휴먼 컴퓨터 인터랙션(HCI) 분야에서는 이같은 멀티모달 모델이 주를 이룬다”며 “기존에는 언어만을 통해 하나의 네트워크만 했다면 이제는 하나의 모델에서 다양한 기능을 처리하고 있다”고 말했다.
이러한 흐름은 ‘피지컬 AI’ 시대도 빠르게 앞당긴다. 멀티모달 AI가 인식의 측면이라면, 피지컬AI는 행동의 영역이다. 예를 들어 제조 및 물류 산업 전반에서 하나의 멀티모달 모델이 정착된 로봇 에이전트가 작업 공정을 관리하게 되는 것도 이와 같은 맥락이다.
독자 파운데이션 모델과 국가 전략

정부는 독자 파운데이션 AI 모델(이하 독파모) 구축 사업에 박차를 가하고 있다.
정부가 주력하는 독파모 역시 오는 2027년까지 LLM 구축은 물론, 멀티모달 기술력을 갖추는 것을 목표로 한다. 한국어 특화 데이터뿐만 아니라 한국의 문화적 맥락, 법 제도, 산업 특성을 완벽히 이해하는 우리만의 멀티모달 엔진을 확보하는 것이다.
한국형 AI 모델 확보는 곧 국가 경쟁력 그 자체다. 한국지능정보사회진흥원(NIA)은 ‘AI 에이전트 시대, AI 활용 패러다임 변화’ 보고서를 통해 “생성형 AI 모델, AI 에이전트에 대한 독보적 경쟁력을 갖춘 빅테크 기업이 글로벌 AI 생태계의 표준을 주도하고 있는 상황에서 AI 에이전트와 같은 활용 기술 개발에 집중해 글로벌 경쟁력을 확보하는 게 필요하다”고 말했다.
현재 과학기술정보통신부와 관련 부처들은 국내 대표 IT 기업들과 협력해 공공, 의료, 제조 등 특정 산업군에 최적화된 ‘버티컬 AI’ 개발에도 적극 지원하고 있다.
특히 영상과 코드를 동시에 처리할 수 있어 자율주행, 스마트 팩토리, K-콘텐츠 제작 등 다양한 산업 분야에서 시너지를 낼 것으로 보인다.
물론 장밋빛 전망만 있는 것은 아니다. 멀티모달 모델은 기존 텍스트 모델보다 훨씬 방대한 컴퓨팅 자원(GPU)과 고품질의 멀티미디어 데이터를 필요로 한다. 데이터 학습 과정에서의 저작권 문제와 ‘환각 현상’을 시각 정보에서도 어떻게 통제할 것인지도 해결해야 할 숙제로 남아있다.
가트너는 “멀티모달 AI는 훈련, 구축, 통합 및 관리가 어려울 수 있다. 도메인과 사용 사례에 가장 중요한 모달리티를 우선순위로 정해야 한다. 아울러 이를 관리하는 데 필요한 기술의 전문성 신장에 투자해야 한다. 이후 산업별로 생성형 AI, 다중 모달 등을 포함하는 거버넌스 전략을 수립해야 한다”고 강조했다.
▲<대형 LLM 중심 구조 흔들…소형 모델·엣지 AI 부상[AI 7대 트렌드④]>에서 이어집니다.
Copyright © 데일리안. 무단전재 및 재배포 금지.
- '민주당 상왕' 몰락? '뉴이재명 현상' 뜬다…배경은
- 김민석 총리, 미국만 가면 왜 이러나…한 달 반만에 또 '순방 잔혹사' [정국 기상대]
- [속보] 오세훈 서울시장, 오늘(17일) 오후 3시 공천신청 관련 입장 발표
- "망나니 칼춤" "與에 상납하는 꼴"…이정현 '마이웨이 공천'에 국민의힘 쑥대밭
- 헛소리 된 ‘256억 타협안’…뉴진스 언급하며 ‘오케이레코즈’ 간판 닦은 민희진 [D:이슈]
- 국민의힘, '李대통령 공소취소 외압 특검법' 발의…"거래 게이트도 진상규명 필요"
- 오세훈 "오늘(17일) 후보등록…당 지도부 변화 없다면 서울에서부터 변화 시작"
- '부산시장 경선' 확정에…박형준 "올바른 결정" 주진우 "선의의 경쟁할 것"
- 헛소리 된 ‘256억 타협안’…뉴진스 언급하며 ‘오케이레코즈’ 간판 닦은 민희진 [D:이슈]
- 미국 vs 베네수엘라, WBC 결승전은 ‘마두로 더비’