텍스트 뗀 AI, 다음 단계 돌입…이젠 이미지로 세상 본다

테크 딥다이브
챗GPT 등 언어모델 LLM 이어
이미지 기반 'VFM' 발전 가속
'스스로 판단' AGI 위해 필수적
美 빅테크·네이버 자체모델 내놔
자율주행·의료 등 활용처 다양

최근 이미지 기반의 초거대 인공지능(AI)인 비전파운데이션모델(VFM)이 빠르게 발전하고 있다. 현실 세계를 인식할 수 있는 기반이 되는 만큼 자율주행, 의료 등 다양한 현실 영역에서 AI를 적용하는 데 도움이 될 전망이다.

16일 정보기술(IT)업계에 따르면 구글, 메타, 오픈AI 등 주요 AI기업이 비전파운데이션 모델을 잇달아 선보이고 있다.

전통적으로 AI의 양대 분야는 언어를 다루는 자연어처리(NLP)와 이미지를 처리하는 비전으로 구분된다. 언어 분야는 2017년 구글이 트랜스포머 알고리즘을 내놓은 이후 급격하게 발전했다. 2022년 11월 오픈AI가 자사 대규모언어모델(LLM) GPT-3.5를 기반으로 한 서비스 챗GPT를 출시하면서 순식간에 세계로 확산했다. 비전 분야는 2020년 트랜스포머 알고리즘을 이미지 분야로 확장한 비전트랜스포머(ViT) 알고리즘이 등장하면서 성장의 계기를 맞았다.

LLM은 방대한 양의 텍스트를 학습시킨 초거대 AI다. VFM도 마찬가지로 대규모 이미지를 이용해 만든다. LLM이 학습된 데이터를 기반으로 창작, 요약, 번역 등 다양한 작업을 하는 것처럼 VFM은 이미지 속 사물을 구분해 분류하는 일부터 상황 인식 등 다양한 작업을 할 수 있다. 메타의 SAM을 비롯해 오픈AI의 CLIP, 구글의 OWL-ViT 등이 대표적이다. 네이버도 연구 자회사인 네이버랩스유럽을 통해 2차원 이미지를 3차원 공간 정보로 바꿔주는 VFM 크로코(CROCO)를 만들었다.

VFM의 가장 큰 특징은 현실 세계를 AI가 인식하는 연결 통로로 활용한다는 점이다. 네이버의 크로코는 로봇의 카메라를 통해 받아들인 시각 정보를 입체 데이터로 바꾸기 위해 제작됐다. 활용 범위도 넓다. 엑스레이, MRI 같은 의료 분야의 이미지를 분석해 질병을 찾는 용도는 물론 보안, 자율주행, 제조업 등 대다수 산업 영역에 적용할 수 있다.

AI가 스스로 상황을 인식하고 행동하는 범용인공지능(AGI) 수준으로 발전하기 위해선 LLM은 물론 현실과 연결되는 VFM의 발전도 필수적이라는 게 전문가들의 설명이다.

비전 AI 시장은 빠르게 성장하고 있다. 시장조사업체 마케츠&마케츠에 따르면 지난해 172억달러(약 23조9000억원)이던 비전 AI 시장은 2028년 457억달러(약 63조7000억원)까지 커질 전망이다.

이승우 기자 leeswoo@hankyung.com