공간지능을 통해 세상을 이해하다: 거대세계모델(LWM) 부상[테크트렌드]

3차원 공간인식으로 AI 지평을 확장하는 LWM
메타버스, 자율차, 로봇 등에 활용 기대

챗GPT 등장 이후 대형언어모델(LLM) 기술은 인간의 언어를 이해하고 생성하는 데 많은 기여를 해왔다. 하지만 그동안 LLM에 쏟아진 찬사 못지않게 AI의 궁극적 목표인 인공일반지능(AGI)을 달성하기에는 충분하지 않다는 주장도 제기되고 있는 것이 사실이다.

이러한 상황에서 LLM이 내재하고 있는 본질적인 한계를 극복하려는 시도들이 계속 나오고 있다. 고급 추론 능력과 문제해결 역량을 개선한 오픈AI의 오픈AI o1이나 비디오로 세상을 이해하고 학습하는 얀 르쿤의 제파(JEPA) 모델이 대표적이다.

최근에는 언어, 이미지 및 비디오를 넘어 세상의 물리적 환경을 이해하기 위해 AI 모델의 지평을 확장하려는 소위 거대세계모델(Large World Model, LWM)이 특히 주목을 끌고 있다. LWM은 스탠퍼드대 교수이자 월드랩스(World Labs) 설립자인 페이페이 리(Fei-Fei Li) 교수가 공간지능(Spatial Intelligence)을 구현하기 위해 개발 중인 AI 모델이다.

월드랩스는 3차원(3D) 세계를 인식하고 생성하고 상호작용할 수 있는 LWM을 구축하는 것을 목적으로 설립된 AI 스타트업이다. 이 회사는 설립 4개월 만에 10억 달러 이상의 기업가치를 기록했고 최근에는 2억3000만 달러(약 3200억원)의 추가적인 투자유치를 통해 본격적인 LWM 개발에 나서고 있다.

리 교수는 월드랩스를 통해 AGI 구축의 주요 방법인 공간지능을 연구하고 있고 이를 기반으로 LWM을 개발 중인 것으로 알려지고 있다. 리 교수는 컴퓨터 비전 기술의 대가로 2010년 컴퓨터 비전을 포함, AI 전반에 걸쳐 엄청난 발전을 이룬 방대한 데이터 세트인 이미지넷(ImageNet)을 개발한 주역이기도 하다.

그럼 공간지능은 무엇이고 이를 구현하려는 LWM은 어떤 모델일까.

디지털 세계·물리적 세계 통합하는 공간지능

인간은 태어나면서부터 언어적 지능을 가지며 이를 통해 다른 사람들과 소통한다. 하지만 언어는 인간이 상호작용하기 위한 소통방식의 하나일 뿐이다. 인간이 실제 주변 세계와 상호작용하는 것은 물리적 공간이며 시각적 지능과 공간적 지능을 통해 현실세계의 물리적인 형체를 이해하고 상호작용을 한다.

따라서 이러한 현실세계를 이해하고 추론하고 상호작용하기 위해서는 언어 기능을 넘어서는 또 다른 지능이 필요하다. 이 지능이 바로 공간지능이다.

공간지능은 쉽게 말하면 현실세계를 이해하고 판단하는 AI 시스템이다. 리 교수는 공간지능을 “시각적 데이터를 처리하고 예측하고 이에 따라 행동하는 능력이며 이를 통해 AI가 현실세계에서 인간과 상호작용할 수 있는 방식”이라고 설명한다.

기존의 2차원(2D) 데이터에 기반한 AI에서 3차원 데이터에 기반한 공간지능 AI로의 전환은 AI가 인간의 공간인식을 입체적으로 반영하는 방식으로 현실세계와 상호작용할 수 있게 된다는 점에서 의미가 크다.

이러한 공간지능은 애플이 주장하는 공간컴퓨팅(Spatial Computing)과 밀접히 연계되어 있다. 두 개념 모두 3차원 공간에서의 상호작용과 이해에 중점을 두고 있기 때문이다. 리 교수도 공간지능 구현에서 가상현실(VR)과 증강현실(AR)이 기본 운영체제가 될 것이라고 말한 바 있어 향후 공간지능과 공간컴퓨팅의 융합으로 인해 새로운 세계가 다가올 것으로 전망된다.

공간지능 구현하는 모델 LWM

이러한 공간지능을 구현하기 위한 AI 모델로 주목을 받고 있는 것이 바로 LWM이다. LLM이나 거대행동모델(LAM)에 이어 궁극적으로 AGI를 달성하기 위한 차세대 AI 모델로 평가된다.

LWM이란 말은 처음 일본 LLM 스타트업 사카나 AI의 공동 창업자인 데이비드 하(David Ha)가 2018년 ‘세계모델(World Models)’이라는 논문에서 언급한 용어이다. 디지털과 물리적 세계를 융합해 서로 상호작용할 수 있게 만든다는 의미를 가지고 있다.

LWM은 기존 텍스트 기반의 자연어 처리에 초점을 두었던 LLM이나 이미지 및 동영상 처리로 확대된 멀티모달 형태의 LMM에 비해 실제 3차원 세계를 이해하고 모델링하는 데 중점을 두고 있다. 특히 LWM은 AI 모델에 공간지능을 부여하여 실제 우리가 살고 있는 세계를 인식하고 생성하고 추론하며 이를 통해 궁극적으로 상호작용할 수 있게 한다.

이런 맥락에서 일각에서는 LWM을 가상의 디지털 환경을 넘어 실제 물리적 세계와 상호작용하는 물리적 AI(Physical AI)나 구현된 AI(Embodied AI)와 같은 개념으로 보기도 한다. 하지만 LWM은 이 두 개념보다는 좀 더 광범위하고 포괄적 의미의 AI 시스템으로 봐야 할 것 같다.

오픈AI의 비디오 생성 AI인 소라(Sora)도 실제 현실세계를 모의실험(simulation)하는 능력을 보여준다는 의미에서 LWM의 개념을 활용한 AI 모델이라고 할 수 있다. 단순한 영상을 생성하는 AI를 넘어 현실세계의 사물이 존재하는 방식도 이해하기 때문이다.

실제로 소라는 대량의 동영상을 프레임별로 분석하고 텍스트와 매칭하여 물리적 법칙을 학습한다. 이를 통해 물체의 움직임과 상호작용을 이해하고 현실적인 세계의 모의실험 능력을 갖춘다. 예를 들어 컵이 떨어지면 깨진다는 것 같은 물리법칙을 이해하고 표현할 수 있다.

LWM 통해 구현되는 유망 산업은

챗GPT가 나온 이후 LLM이라는 언어모델을 통해 우리는 디지털 세계의 텍스트를 이해하고, 이어 LMM을 통해 이미지와 비디오를 이해하고 상호작용할 수 있었다. 하지만 이러한 AI모델은 세상을 이해하기 위해 짧은 텍스트, 이미지, 비디오 클립에 의존하기 때문에 우리가 살고 있는 세계의 복잡한 환경을 파악하기 어렵다는 한계가 존재한다.

하지만 이제 LWM 기술의 등장으로 우리는 물리적 현실세계를 더욱 깊이 이해하고 효과적으로 상호작용할 수 있는 새로운 시대를 맞이하게 될 것으로 예상된다. 이 혁신적인 기술은 앞으로 다양한 산업 분야에 광범위하게 적용되어 큰 변화를 가져올 것으로 전망된다.

단기적으로 활용될 수 있는 분야는 컴퓨터 게임과 증강·가상현실(AR·VR)을 들 수 있다. 특히 메타버스 산업의 경우 주로 실감나는 사용자 경험, 콘텐츠 생성 및 관리의 향상, 실제 세계의 데이터와의 통합 등에서 많은 개선이 이루어질 것으로 보인다.

장기적으로는 AI 기반 로봇이나 자율주행차가 유력하다. 예를 들어 LWM은 다양한 주변 환경 데이터 처리 능력으로 휴머노이드나 자율주행차의 인지, 판단, 제어기능을 고도화시킬 수 있을 것으로 보인다.

특히 인간의 관여 없이도 실시간 데이터를 학습하고 적용하도록 설계되어 있어 실시간이 중요한 자율주행차에 특히 유용하다. 중국의 드라이브드리머(DriveDreamer) 연구 프로젝트나 영국의 자율주행 기술 스타트업 웨이브(Wayve)의 GAIA-1 모델 등이 대표적이다.

물론 향후 LWM이 본격적으로 활용되기 위해서는 넘어야 할 한계가 분명 존재한다. 특히 공간지능을 구현하기에는 기존의 LLM처럼 태생적인 기술적 장벽도 존재한다. 그럼에도 불구하고 현실세계에 대한 이해와 상호작용을 통해 궁극적으로 인간을 넘어서는 AGI를 구현하려는 LWM에 대한 시도는 계속될 것으로 보인다.

심용운 SK경영경제연구소 수석연구원

이 기사에 대해 어떻게 생각하시나요?

한경비즈니스에서 직접 확인하세요. 해당 언론사로 이동합니다.