네이버-트웰브랩스, 영상이해 모델로 K-AI 경쟁서 ‘승부수’

글로벌 입증 트웰브랩스 영상이해 기술력 앞세워
韓 강점 미디어·엔터 분야 활용 주목

김남선(맨 왼쪽) 네이버 전략투자부문 대표와 이재성(맨 오른쪽) 트웰브랩스 대표가 올 6월 미국 실리콘밸리 포시즌 호텔에서 열린 네트워킹 행사에 참여하고 있다. 트웰브랩스 제공

네이버클라우드가 정부의 ‘독자 인공지능(AI) 파운데이션 모델’ 컨소시엄 참여사 트웰브랩스의 자체 영상언어모델(VLM) 기반 ‘옴니 파운데이션 모델’을 바탕으로 차별화에 나선다.

3일 정보기술(IT) 업계에 따르면 네이버클라우드는 단순 데이터 공급을 넘어 옴니 혁신 모델을 구축하는 것을 목표로 한다. 옴니 모델은 멀티모달보다 한 차원 높은 수준으로 AI 학습 초기 단계부터 텍스트와 함께 영상 등을 동시에 학습한다. 제조업에 특화된 모델이나 피지컬 AI로 쉽게 확장할 수 있다.

네이버클라우드는 경쟁사 대비 진화된 모델 전략을 전면에 내걸었다. 현재 정예팀 5곳 중 NC AI와 SK텔레콤도 멀티모달 기반의 AI 모델을 띄우고 있다. NC AI는 주력 멀티모달 모델인 ‘바르코’를 통한 고도화를, SKT는 컨소시엄 참여사인 크래프톤의 차세대 멀티모달을 활용하는 방안을 계획하고 있다.

네이버의 차별화 원동력은 컨소시엄 내 유일한 영상이해 모델을 보유한 트웰브랩스다. 2021년 출범한 회사로 글로벌 빅테크들이 텍스트와 이미지에 주력할 때 ‘영상 AI’라는 블루오션 시장에 주목했다. 오픈AI와 구글의 범용 거대언어모델(LLM)과 비교해 주요 벤치마크에서 성능 우위를 점하고 있다.

트웰브랩스는 단순한 영상 분석을 넘어 ‘멀티모달 AI 아키텍처 설계’ 역량을 보유하고 있다. 자체 영상언어 생성 모델인 ‘페가수스’와 멀티모달 영상이해 모델인 ‘마렝고’는 영상과 텍스트, 음성을 통합적으로 이해하는 세계 유일의 기술을 구현했다. 특히 ‘하나의 비디오 인코더’를 활용한 통합 영상 인식 기술은 차별화된 접근법으로 평가받았다.

해외 시장에서 독보적 기술력을 인정받았다. CB 인사이트 선정 글로벌 100대 AI 기업에 4년 연속 선정됐다. 엔비디아가 선정한 최초의 한국 AI 스타트업으로 누적 투자액은 1억700만달러에 달한다. 올 4월에는 페가수스와 마렝고를 아마존 베드록에 공급했다.

회사 측은 “세계 최초이자 유일한 영상이해 모델을 탑재한 것으로, 업계 중 처음으로 아마존과 메타, 앤트로픽 등 주요 글로벌 AI 기업과 동등한 지위를 확보했다”고 강조했다.

네이버는 독자 옴니 모델의 핵심 파트너사인 트웰브랩스의 기술력과 노하우를 활용해 경쟁력을 강화할 계획이다. 영상이해 기술 기반으로 한국의 강점 산업인 미디어·엔터테인먼트 등에서 활용도를 높일 수 있는 방안도 구상하고 있다.

임성원 기자 sone@dt.co.kr

디지털타임스

IT/과학

네이버-트웰브랩스, 영상이해 모델로 K-AI 경쟁서 ‘승부수’