[인터뷰] "영상은 오픈AI도 못 쫓아오죠"…AI기반모델 만든 트웰브랩스
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 기술 바람이 불면서 AI 서비스가 우후죽순처럼 쏟아지고 있지만 AI를 구동할 자체 기술, 즉 기반 모델(파운데이션 모델)을 가진 기업은 세계적으로도 손에 꼽힌다.
국내에선 네이버, 카카오, SK텔레콤, KT, LG AI연구원 5개 대기업만 자체 초거대 AI 모델을 개발하고 있고, 스타트업 가운데 기반 모델을 보유한 곳은 영상 검색 AI 모델을 만든 트웰브랩스가 유일하다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(서울=연합뉴스) 조성미 기자 = 인공지능(AI) 기술 바람이 불면서 AI 서비스가 우후죽순처럼 쏟아지고 있지만 AI를 구동할 자체 기술, 즉 기반 모델(파운데이션 모델)을 가진 기업은 세계적으로도 손에 꼽힌다.
국내에선 네이버, 카카오, SK텔레콤, KT, LG AI연구원 5개 대기업만 자체 초거대 AI 모델을 개발하고 있고, 스타트업 가운데 기반 모델을 보유한 곳은 영상 검색 AI 모델을 만든 트웰브랩스가 유일하다.
트웰브랩스는 오픈AI의 GPT 시리즈, 구글의 바드, 미드저니 등 굴지의 AI 기반 모델이 집중하고 있는 텍스트, 이미지 분야가 아닌 영상을 다룬다는 점에서 세계적으로도 독보적인 위치를 선점하고 있다고 3일 밝혔다.
이 회사는 지난해에 이어 올해 CB인사이트의 '세계 100대 AI 기업'에 오픈AI, 허깅페이스 등과 함께 선정되기도 했다. 우리나라 기업 중에 2년 연속 선정된 곳은 트웰브랩스가 유일하다.
트웰브랩스는 챗GPT 열풍이 불기 전 오픈AI의 GPT-3, 달리(DALL-E) 등 모델이 모습을 드러낼 당시 이들이 주력하는 텍스트, 이미지는 빅테크가 대규모 자본만 동원하면 금세 따라잡을 수 있는 분야인 데 반해 영상은 작은 스타트업이 성공할 수 있는 기술적 여지가 남아있다고 보고 영상 이해 기술에 뛰어들었다고 설명했다.
다음은 지난 달 28일 서울 용산구 이태원동 트웰브랩스 본사에서 이승준 최고기술책임자(CTO)와 서민준 최고과학자(치프 사이언티스트) 겸 한국과학기술원(KAIST) 인공지능대학원 교수와 일문일답.
-- 영상 검색에서 기반 모델을 개발했다는 것의 의미가 무엇인가.
▲ (서민준) 영상은 이미지 여러 개가 이어진 콘텐츠이다 보니 데이터도 매우 크고 복합적으로 신경 써야 하는 부분이 텍스트나 이미지보다 훨씬 많다. 한마디로 텍스트, 이미지만 있는 데이터를 다룰 때보다 난도가 높다고 할 수 있다. 그래서 영상을 다루는 기술적 장벽을 넘을 수 있는 회사가 매우 적은 상황이다. 여기서 한 단계 더 나아가 단순한 검색을 넘어서 영상과 상호작용, 즉 AI 모델에 구체적인 질문을 하고 답을 얻을 수 있는 서비스를 개발한 곳은 트웰브랩스 외에는 없다. 기존에는 영상 속 이미지나 음성에 '사람', '사물' 등 태그를 붙이고 이를 기반으로 검색했지만, 제한적인 단어로 구성될 수밖에 없는 태그가 붙지 않은 부분은 검색할 수 없다. '마링고'라고 이름 붙인 우리의 영상 이해 기반 모델은 영상을 자연어로 처리한 언어모델이 영상 처리 모델과 소통하는 비디오 언어 모델(VLM) 기술이라고 할 수 있다.
-- 이 분야에서 다른 AI 기업들을 따돌릴 기술적 해자는 어떻게 마련하는가.
▲ (이승준) 2020년 오픈AI의 GPT-3가 출시된 이후 일반인들의 반응은 별로 없었다. 오픈AI는 2년 반 뒤 빠르게 챗GPT를 내놓아 이용자들로부터 피드백을 받고 데이터를 수집해 GPT4까지 오게 됐다. 우리도 비슷한 전략을 취하고 있다. AI 모델이 완벽하지 않아도 빠르게 시장에 내보내 기업 등 이용자와 상호작용하는 데이터를 파악하고 최상의 영상 언어 모델을 만들려는 것이다. 오픈AI가 텍스트 쪽에서 AI 모델의 깃발을 꽂고 업계가 따라가는 모습이라면 우리는 영상 이해 쪽에서 깃발을 꽂으려 한다.
-- 영상 검색 AI 모델 출시 계획과 기술적 포부는.
▲ (이승준) 베타 서비스는 지난 4월 출시해 전 세계에서 현재 1만명 정도가 테스트하고 있다. 아직 공개할 수 없지만 미국과 유럽의 큰 기업들이 파일럿을 진행하고 있다. 하반기에 베타 테스트를 바탕으로 성능을 개선한 결과를 공개할 것이다. 영상 검색뿐 아니라 영상 언어와 관련된 응용프로그램 인터페이스(API) 제품도 내놓을 계획이다. API는 개발자나 기업을 대상으로 하는 기업 대 기업(B2B) 분야인데, 기업 대 소비자(B2C) 분야에서 방향이 무엇인가에 대한 고민도 할 것 같다. 최근 어도비로부터 프리미어 프로에서 우리의 모델을 익스텐션(확장형)으로 쓸 수 있겠느냐는 문의도 받았다. 현재 영상-언어 모델의 기술적 성숙도는 언어모델의 성숙도와 비교하자면 GPT-2와 3 사이로 평가된다. 기술 개발 속도로 봤을 때 GPT-3 순간이 영상-언어 쪽에서도 곧 올 것으로 예상되는데 후발주자가 아닌 선두 주자로서 기술 발전을 앞당기는 것이 목표다.
-- 기술 자문을 하다 최고과학자로 합류하게 된 계기는.
▲ (서민준) 빅테크가 할 법한 과업을 스타트업이 하는데, 어떤 믿음이 있었느냐는 질문을 받는다. 기반 모델 개발이 자본 집약적인 문제인데 스타트업이 어떻게 대기업과 경쟁하느냐고 질문할 수 있다. 하지만, 자본만으로 하는 경쟁이기보다는 자본, 팀, 문화 등 모든 요소를 갖춰야 하는 종합 예술이라고 생각한다. 요소 어느 하나가 빠져도 안 되지만 어느 하나만 많다고 되는 것이 아니기 때문이다. 각 요소를 다 갖춘 팀이라고 생각했다. 특히 지난해 말 상황을 떠올려 보면 대부분의 기반 모델 개발팀이 미국에 있고, 이미지나 텍스트 쪽은 이미 많이 정복된 상황이었다. 다음 선구자는 감각과 언어 등 여러 정보를 동시에 처리하는 멀티모달 신경망 기반의 영상 언어 모델이 될 것이라고 생각했고, 한국에서도 선도적인 기반 기술을 만들어야 한다는 공감대를 이뤄 합류하게 됐다. 기반 모델은 수많은 애플리케이션 서비스의 기초가 되는 중요한 기술이다. 진정한 지능은 언어적인 지능이 아니라 시각적인 지능까지 결합돼야 한다. 현재 이미지 기반 AI 모델들이 있지만 이들로는 한계가 있다. 결국 시간의 흐름과 맥락, 그리고 음성 등 다양한 정보 유형을 AI가 이해해야 한다. 영상은 텍스트의 아류가 아니다. 텍스트가 기본이고 다음은 이미지, 그리고 영상이다. AI가 영상을 이해하는 것은 인간의 지능에 가까워지기 위한 필수 요소다. 오픈AI가 텍스트 분야를, 스테이블 디퓨전이 이미지 분야를 혁신하며 규모를 키웠다면 다음은 영상 분야를 혁신할 수 있는 기업이 나와야 한다.
-- '딥러닝의 대모'라 불리는 페이페이 리 미국 스탠퍼드대 교수가 이 회사에 투자하고 자문한다. 그의 발언을 소개한다면.
▲ (이승준) 페이페이 리 교수는 한국에 우수한 AI 연구자가 많고 좋은 논문이 많이 나오는 만큼 대한민국이 AI를 정말 잘 할 수 있는 나라라고 말했다. 트웰브랩스가 한국의 우수한 연구자들이 모이는 허브가 됐으면 좋겠다고도 했다. 우수한 연구자가 최고의 역량을 발휘할 수 있는 좋은 환경과 문화를 구축하려고 노력할 것이다.
csm@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- 모르는 20대 여성 따라가 "성매매하자"…60대 실형 | 연합뉴스
- "창문 다 깨!" 31년차 베테랑 구조팀장 판단이 52명 생명 구했다 | 연합뉴스
- 中대학생 '교내 묻지마 칼부림'에 25명 사상…"실습공장서 착취" | 연합뉴스
- 평창휴게소 주차 차량서 화재…해·공군 부사관 일가족이 진화 | 연합뉴스
- 경찰, '동덕여대 건물 침입' 20대 남성 2명 입건 | 연합뉴스
- 패혈증 환자에 장염약 줬다가 사망…의사 대법서 무죄 | 연합뉴스
- KAIST의 4족 보행로봇 '라이보' 세계 최초 마라톤 풀코스 완주 | 연합뉴스
- [샷!] "채식주의자 읽으며 버텨"…'19일 감금' 수능시험지 포장알바 | 연합뉴스
- 영국서 女수감자 '전자장치 착용' 조기 석방 검토 | 연합뉴스
- 태국 남성, 개 4마리 입양해 잡아먹어…유죄판결시 최대 징역2년 | 연합뉴스