보고, 듣고, 느끼고, 만지는 인공지능이라니 [인공지능 오디세이]

AI는 놀라운 속도로 진보하고 있다. 입력어를 이해하는 인식형 AI에서 텍스트, 이미지, 소리를 만드는 생성형 AI, 추론과 계획이 가능한 AI를 넘어 물리 세계와 연결된 피지컬 AI 단계에 진입했다.

우리는 이제 ‘읽고 쓰는 AI’를 넘어 ‘보고 듣고 말하며 움직이는 AI’와 교감하기 시작했다. ⓒ심규태

지금까지 살펴본 주제는 주로 텍스트를 중심으로 한 ‘대규모 언어모델(LLM)’에 관한 것이었다. 하지만 최근에는 이러한 LLM이 텍스트를 넘어 이미지, 음성, 영상까지 이해하고 다룰 수 있는 ‘멀티모달 모델(multimodal model)’로 빠르게 확장되고 있다. 이제는 LLM의 뛰어난 언어능력에 시각과 청각 같은 인간의 감각까지 결합된 모델이 등장하고 있는 것이다. 이번에는 이러한 멀티모달 모델이 어떻게 발전해왔는지, 어떤 기술이 이를 가능하게 했는지, 그리고 앞으로 AI가 실세계로 확장되며 가져올 변화의 방향성을 짚어보려 한다.

멀티모달 모델은 텍스트뿐만 아니라 이미지, 음성, 비디오 같은 다양한 형태(modality)의 데이터를 동시에 이해하고 생성할 수 있는 AI 모델을 말한다. 예를 들어 과거에는 텍스트를 처리하는 언어 모델과 이미지를 처리하는 비전 모델, 음성을 다루는 음성 모델이 따로 존재했지만, 멀티모달 모델은 한 모델이 여러 유형의 입력을 통합적으로 처리한다. 쉽게 말해 대규모 언어모델(LLM)의 논리·추론 능력에 시각, 청각 등 인간의 다양한 감각 정보처리 능력이 결합된 형태라고 할 수 있다.

2022년은 멀티모달 AI의 가능성을 보여준 해였다. 대표적으로 구글 딥마인드(DeepMind)는 그해 4월 플라밍고(Flamingo)라는 시각-언어 모델을 공개했는데, 사전학습된 거대 언어모델과 이미지 인코더를 결합하여 이미지·영상에 대한 질문에 답하고 설명할 수 있었다. 플라밍고는 800억 파라미터 규모로 이미지 캡션 생성, 시각 질의응답에서 당시 최고 성능을 보여 주목을 받았다. 이 같은 모델이 등장할 수 있는 배경에는 두 가지 핵심 기술의 발전이 있었다. 하나는 LLM의 급격한 발전이고, 다른 하나는 강력한 이미지 인코더, 특히 CLIP의 등장이다.

CLIP(Contrastive Language-Image Pretraining)는 이미지와 텍스트를 함께 학습하여 이미지에 대한 언어적 설명을 이해하고 연결하는 능력을 갖추고 있다. 예를 들어 “고양이가 피아노를 치는 장면”이라는 문장을 주면 그 의미에 가장 부합하는 이미지를 찾아낼 수 있다. 단순히 형태만 파악하는 게 아니라 언어와 시각 사이 의미적 연결을 가능케 한 것이다. 이러한 기술 덕분에 이미지 인코더는 시각적 정보를 의미 단위로 요약해서 LLM에 전달할 수 있게 되었고, 플라밍고 같은 시각-언어 모델의 기반이 되었다.

“고장 난 자전거, 어디가 문제인지 알려줘”

2023년에는 오픈AI가 GPT-4를 발표하며 공식적으로 멀티모달 AI 시대를 열었다. 이 모델은 단순히 텍스트만이 아니라 이미지까지 함께 이해할 수 있는 능력을 갖췄다. 예를 들어, 사용자가 손으로 그린 웹사이트 스케치를 보여주면 해당 스케치와 흡사한 웹페이지를 만들어주는 데모를 시연해 많은 이들의 이목을 끌었다. 비슷한 시기 구글도 ‘팜-E(PaLM-E)’라는 프로젝트를 통해 언어 모델과 로봇을 결합하는 시도를 이어갔다. 카메라로 본 장면을 언어로 이해하고, 거기에 맞는 적절한 행동 명령을 생성해 실제 로봇을 움직이게 한 것이다. AI가 점차 실세계와 상호작용하는 존재로 변화하고 있음을 시사했다.

2023년 하반기, 오픈AI는 챗지피티에 음성 대화 및 이미지 입력 기능을 도입하며 사용성과 실용성을 크게 확장했다. 사용자가 고장 난 자전거 사진을 올리고 “어디가 문제인지 알려줘”라고 말하면 AI가 시각 정보를 분석해 설명하고 해결 방법까지 안내해주는 것이 가능해졌다. 이러한 진화는 텍스트 중심의 AI에서 청각과 시각을 모두 갖춘 인터페이스로의 확장을 보여준다.

알리바바가 최근 공개한 QWEN2.5-Omni 모델의 구조. Thinker가 ‘뇌’ 역할을 하는 기존 LLM이며, 텍스트뿐 아니라 이미지와 음성도 입력된다. Vision Encoder와 Audio Encoder는 각각 입력 이미지·음성을 LLM이 이해할 수 있는 형태로 인코딩(요약)한다. Talker는 LLM 출력을 텍스트, 음성, 이미지로 디코딩(생성)한다. ⓒ알리바바

2024년 이후 진짜 경쟁이 시작됐다. 멀티모달 AI는 더 거대해지고 더 정교해졌으며, 이제 단순한 입력처리를 넘어서 실시간 반응, 음성 합성, 영상 이해와 로봇 제어까지 아우르고 있다. 주요 빅테크들은 각자 고유의 멀티모달 모델을 출시하며 ‘텍스트+이미지+음성+영상’을 모두 처리하는 통합형 AI 플랫폼으로 진화 중이다. 2022~2023년이 초기 개념 증명과 가능성 시연 단계였다면, 2024년부터는 주요 빅테크 기업들이 본격적인 멀티모달 제품들을 경쟁적으로 내놓는 단계로 접어든 것이다. 빅테크들은 서로 앞다투어 ‘텍스트+이미지+음성+영상’을 한 모델에서 모두 다룬다고 선언하며, 모델의 크기와 성능뿐 아니라 출력 형태의 다양성까지 경쟁 요소가 되고 있다.

오픈AI는 2025년 3월 GPT-4o에 이미지 생성 기능을 추가해서 공개했다. 이 중에서도 특히 “지브리 스타일로 그려줘” 같은 프롬프트로 생성된 이미지들이 SNS를 중심으로 폭발적인 반응을 일으켰다. 사용자가 단 몇 단어의 설명만으로도 감성적이고 완성도 높은 이미지를 생성할 수 있다는 사실은, 멀티모달 AI가 단지 이해 능력에 그치지 않고 창의적 작업까지 수행할 수 있는 존재임을 대중에게 각인시켰다. 이는 곧 AI가 예술, 디자인, 콘텐츠 산업에서도 주체로 등장할 수 있다는 가능성을 보여준 상징적 장면이었다.

멀티모달 AI의 궁극적 지향점은 가상 세계를 넘어 물리 세계(physical world)와의 연결, 즉 ‘피지컬 AI(Physical AI)’로의 확장이다. 이미 AI는 카메라와 마이크를 통해 주변을 보고 듣고, 로봇을 통해 직접 행동하는 실험 단계에 진입했다. 이는 산업, 교육, 일상생활 전반에서 AI가 직접적인 물리적 행위자로 참여할 가능성을 연다. 이러한 변화는 새로운 기회를 열어주는 동시에, 기술적 한계와 사회적 책임이라는 숙제를 함께 안긴다. 실세계에서 판단하고 행동하는 AI는 안전성, 법적 책임, 윤리 문제를 동반하며, 인간과 협력하는 파트너가 되기 위해서는 신중한 설계와 운용이 필요하다.

2025년 1월 미국 라스베이거스에서 열린 CES 2025에서 기조 연설 중인 젠슨 황 엔비디아 CEO. ⓒ엔비디아

AI가 직접 행동하는 실험 단계

젠슨 황 엔비디아 CEO는 2025년 1월 국제전자제품박람회(CES) 2025 기조연설에서 “AI가 놀라운 속도로 진보하고 있다”라며 그 발전 양상을 4단계로 분석했다. 첫째 이미지와 단어, 소리를 이해하는 ‘인식형 AI(Perception AI)’, 둘째 텍스트·이미지·소리를 만드는 ‘생성형 AI(Generative AI)’, 셋째 추론과 계획이 가능한 ‘에이전틱 AI(Agentic AI)’, 넷째 물리 세계와 연결된 ‘피지컬 AI(Physical AI)’가 바로 그것이다.

요컨대 LLM에서 시작된 AI는 이제 멀티모달과 로보틱스 기술을 통해 인간의 감각과 언어, 행위까지 확장하는 존재로 진화하고 있다. 2025년 현재 우리는 ‘읽고 쓰는 AI’를 넘어, ‘보고 듣고 말하며 움직이는 AI’와 교감하기 시작했다. 이러한 전환은 단지 기술의 문제가 아니라 우리가 이 기술을 어떻게 설계하고 활용할 것인가에 대한 질문이기도 하다. AI는 더 이상 먼 미래의 기술이 아니다. 이미 사회 곳곳에 깊숙이 들어와 있으며 그 활용 방식과 가치 기준을 어떻게 설정하느냐에 따라 결과는 달라진다. 기술을 이해하고 적극적으로 활용하는 개인과 조직에게는 분명 새로운 기회가 열릴 것이다. 이제 우리는 그 문 앞에 서 있다.

※ 이번 호로 ‘인공지능 오디세이’ 연재를 마칩니다. 열독해주신 독자분들께 감사드립니다.

개발자 M (필명·AI 개발자) editor@sisain.co.kr

시사IN

경제