사람처럼 이해하고 판단 AI 영상분석, K가 이끈다

엔비디아가 주목한 K벤처
트웰브랩스 이재성 대표

인공지능(AI)이 텍스트를 넘어 영상, 음성, 이미지 등 다양한 형태의 데이터를 분석하고 생성할 수 있는 이른바 '멀티모달(multimodal)'로 진화하고 있다. 오픈AI, 구글, 마이크로소프트, 메타 등 글로벌 빅테크는 멀티모달 AI 개발에 박차를 가하면서 다양한 실사용 케이스를 만들어내고 있다. 멀티모달 대중화와 맞물려 AI를 활용한 영상 분석 시장도 급성장하는 추세다. 영상 분석 AI는 사용자의 니즈에 따라 영상을 검색·분석·추천하는 기술을 제공한다. 글로벌 시장조사업체 '모도인텔리전스'는 AI 영상 분석 시장 규모가 2028년 753억5000만달러에 달할 것으로 전망했다.

글로벌 테크 업계에서는 국내 개발자가 설립한 AI 스타트업 '트웰브랩스'가 영상 분석 AI 분야에서 탁월한 기술을 보유한 것으로 평가한다. 이 회사는 2020년부터 영상을 분석하고 이해하는 대규모 AI 모델을 개발해왔다. 지난해 엔비디아, 인텔, 삼성넥스트 등에서 전략적 투자를 유치하며 화제를 모았다.

최근 매일경제와 만난 이재성 트웰브랩스 대표(창업자)는 "AGI에 도달하는 회사가 되겠다"고 말했다. 오픈AI가 대규모언어모델(LLM)을 통해 AGI로 가는 단계를 밟고 있다면 트웰브랩스는 영상 모델을 통해 AGI 시대를 열겠다는 것이 그가 그리는 '빅 픽처'다. 이 대표는 "인간이 언어를 구사하기 전에 보고 듣고 만지며(촉각) 세상을 배우는 것과 가장 유사한 데이터가 영상"이라면서 "영상으로 AI를 학습시키고 그 위에 언어를 더하는 것이 오히려 더 쉬울 수 있다"고 말했다.

그는 "영상 이해를 시작했던 것도 처음부터 AGI를 염두에 두었기 때문이고, 이러한 연구철학을 갖고 개발에 매진하고 있다"고 덧붙였다. 대부분의 AI 회사가 텍스트나 이미지 AI에 초점을 맞추던 시기에 트웰브랩스는 자체 '비디오언어모델(VLM)' 개발에 매진한 것도 이 같은 이유에서다. 트웰브랩스의 AI 모델은 영상 속 다양한 정보 유형을 마치 사람처럼 이해하고, 다양한 작업을 해내는 것이다. 이 대표는 회사가 꿈꾸는 담대한 비전을 달성하기 위해서는 당장의 수익모델(BM)이 중요하다는 점을 분명히 했다. 그는 "지금 트웰브랩스가 만들어내는 모델이 AGI급으로 완벽하지 않더라도 차근차근 기업 고객에 꾸준히 가치를 제공하는 것에 집중한다면 더 좋은 연구와 제품을 만들어낼 수 있을 것"이라고 말했다.

트웰브랩스가 개발한 '영상 이해 AI'는 영상 내 특정 구간까지 구체화한 검색 결과를 제시해주는 AI다. 영상 내 대화 내용, 객체 행동, 문자, 로고 등 다양한 정보 유형을 이해하는 것이 특징이다. 예컨대 수백 분에 달하는 영상에서 '남성이 신문 1면을 들고 있는 모습'을 찾아달라고 하면 AI가 1초 만에 해당 장면을 찾아준다. 특히 복잡하고 다양한 데이터를 활용해 정교한 결과물을 내놓을 수 있다는 점에서 경쟁사 모델들과 차별화된다. 이 대표는 "영상 이해는 영상 생성과 달리 언어, 이미지, 등장인물 등 유형정보를 이해하고, 이를 바탕으로 한 통합적인 추론이 요구된다"면서 "트웰브랩스의 영상 이해 모델은 '영상 표현' 연구와 '영상 언어 정렬' 연구로 영상 속 다양한 정보 유형을 마치 사람처럼 이해할 수 있다"고 설명했다.

트웰브랩스가 지난 3월 업데이트한 영상 언어 생성 모델 '페가수스'(Pegasus-1)와 멀티모달 영상 이해 모델 '마렝고'(Marengo 2.6)는 제미나이 1.5 프로, GPT-4V 등의 상용·오픈소스 영상 언어 모델과 비교해 최대 43%가량의 성능 우위를 보였다.

트웰브랩스 생태계는 빠르게 확장 중이다. 수많은 영상 데이터를 갖고 있지만 이를 활용할 방법을 찾지 못했던 기업은 모두 트웰브랩스의 잠재 고객이다. 현재 개발자 3만여 명과 기업들이 트웰브랩스의 영상 모델을 사용 중이다. 이 대표는 "구체적인 고객명을 밝힐 순 없지만 세계적인 유튜버(크리에이터)와 미국 메이저 스포츠 단체 등이 우리 제품을 사용하고 있다"고 전했다.

트웰브랩스 알고리즘을 활용하면 크리에이터의 편집 생산성이 획기적으로 개선될 수 있다. 영상에 대한 요약, 하이라이트 생성, 영상 기반 텍스트 생성, 분야별 영상 자동 분류 등 다양한 작업이 가능하다는 점에서 기업 수요도 커지고 있다.

빅테크는 일찍부터 트웰브랩스를 주목해왔다. 2021년 국제컴퓨터비전학회(ICCV)와 마이크로소프트가 주최한 '영상·언어이해평가 챌린지' 영상 검색 부문에서 1위를 차지한 것이 계기가 됐다. 트웰브랩스는 아마존웹서비스(AWS)의 스타트업 지원 프로그램인 '액티베이트'를 통해 프로토타입 모델을 만들었다. 2022년 말에는 오라클과의 대규모 클라우드 파트너십을 통해 수천 대의 최신 엔비디아 그래픽처리장치(GPU)를 확보하며 모델 고도화에 성공했다. 지난해 투자한 엔비디아는 트웰브랩스와 긴밀한 협력을 이어가고 있다. 트웰브랩스가 2022년 60억원 규모로 유치한 시드 투자는 국제적인 벤처투자사 '인덱스벤처스'가 주도했다. 페이페이 리 스탠퍼드대 교수 등 AI 석학도 엔젤투자자로 참여했다.

트웰브랩스는 '대한민국 국군'에서 탄생한 회사다. 미국 UC버클리에서 컴퓨터공학을 전공한 이 대표는 국방부 사이버작전사령부에서 공동창업자들을 만났다. 이 대표는 트웰브랩스가 한국이 'AI 주권'을 지키는 데 기여하도록 만들고 싶다고 했다. 그는 "한국 사람이 만들고 한국에서 학습된 모델을 해외 많은 기업이 사용하게 하는 것이 우리의 AI 주권을 지키는 길이라고 생각한다"고 강조했다.

[황순민 기자]

IT/과학

사람처럼 이해하고 판단 AI 영상분석, K가 이끈다