[인터뷰] 업로드 없이 자연어로 영상 검색·요약·편집이 가능한 AI SaaS 서비스를 만들었습니다

앤틀러코리아 창업팀 하임덱스 이장원 대표·강희조 CSO 인터뷰

업로드 없이 자연어 검색… 영상 분야의 AI 활용 구조를 다시 짜다

엔터를 시작으로 라이브커머스·로펌·수사·연구까지 확장

영상은 이미 인터넷과 산업 현장의 중심 데이터가 됐다. 기업과 조직은 하루에도 수많은 영상을 만들고 저장한다. 문제는 그 다음이다. 저장된 영상이 곧바로 활용 가능한 자산이 되는 것은 아니다. 오히려 영상 데이터가 많아질수록 필요한 장면을 찾는 일은 더 어려워진다. 이 지점에서 영상 산업은 오랫동안 역설을 안고 있었다. 데이터는 넘치지만 검색은 여전히 사람의 기억과 노동에 기대고 있다는 점이다. 방송과 엔터테인먼트 현장에서는 원하는 컷 하나를 찾기 위해 수십 개, 많게는 수백 개 파일을 다시 열어봐야 하는 일이 반복된다.

이는 비단 영산 산업 분야만의 문제는 아니다. 법률 시장에서도 사건 관련 영상과 사진, 녹취를 사람이 직접 대조하며 흐름을 정리해야 하는 경우가 적지 않다. 수사와 보안, 보험, 손해사정, 연구 영역으로 가면 문제는 더 무거워진다. 이들 데이터는 외부 반출이 어렵고, 보안 규정 때문에 클라우드 기반 AI를 마음대로 적용하기도 쉽지 않다. 결국 AI 활용 이전에 가장 기초적인 검색과 분류에서부터 병목이 생긴다.

하임덱스 이장원 대표, 강희조 CSO. 두 사람은 앤틀러코리아 제너레이터 프로그램에서 의기투합해 영상 분야의 고질적인 문제를 AI 기술로 해결하는 시도를 하고 있다. (사진=테크42)

하임덱스는 비용과 시간을 줄이면서도 이 오래된 문제를 해결하는 새로운 방식으로 ‘업로드 없이 자연어로 영상 검색·요약·편집이 가능한 AI SaaS 서비스’를 제시한다. 이른바 ‘Vector Native Technology 기반 하이브리드 영상 이해 엔진’이다. 원본 영상은 사용자의 폴더 안에 그대로 두고, 장면과 대사, OCR, 자막, 임베딩 등으로 생성된 사이드카 메타데이터를 활용해 검색과 워크플로를 움직이는 방식이다. 핵심은 영상 AI를 더 ‘화려하게’ 만드는 것이 아니라, 지금도 조직 안에 쌓여 있지만 제대로 쓰이지 못하는 영상을 실제 자산으로 전환하겠다는 데 있다.

“영상 100시간을 뒤져 10초를 찾던 문제”… 출발점은 기술이 아니라 현장이었다

이장원 대표는 미국 일리노이대(UIUC) 공대 출신 개발자로 NHN, 딥세일즈, Esri 등을 거치며 개발과 사업을 모두 경험했다. 코파운더인 강희조 CSO 역시 LG유플러스에서 AI 상품 PM과 B2B 전략을 담당하며 영상·미디어 산업의 문제를 가까이서 경험했다. 서로 다른 배경을 가진 두 사람은 앤틀러코리아 제너레이터 프로그램 7기로 만나, 영상 데이터 문제를 기술로 풀 수 있다는 확신을 공유했다.

처음 하임덱스의 시작은 거창한 기술 비전이나 거대 시장 분석이 아니었다. 오히려 아이디어는 매우 구체적인 현장 경험에서 나왔다. 강 CSO는 SM엔터테인먼트에서 PD로 일하던 시절을 떠올리며, 자신이 처음 맡았던 업무가 영상 산업의 구조적 문제를 압축해 보여줬다고 설명했다.

“첫 직장 생활을 SM엔터테인먼트 PD로 시작했어요. 당시 막내로서 가장 먼저 한 업무가 선배들이 ‘이 장면 찾아달라’고 하면 전 외장하드에 저장된 100개가 넘는 회차를 모두 뒤져서 원하는 컷을 찾아 작업하시는 레이어에 얹어드리는 거였어요. 8년 전의 일이지만, 현장의 문제는 지금도 여전하더군요. AI를 활용하면 너무나 노동집약적인 이 문제를 충분히 해결할 수 있다고 생각했죠.”

강 CSO 말처럼 지금도 많은 영상 현장에서 크게 달라지지 않은 작업 방식을 유지하고 있는 것이 사실이다. 영상이 많아질수록 관리 체계는 복잡해지고, 정작 그것을 ‘찾는’ 문제는 더 소모적인 상태로 남는다. 편집자는 내용을 기억하는 사람에게 묻고, 자료를 정리한 사람은 파일명을 더듬고, 시간이 지나면 그 기억은 조직 안에서 끊긴다. 결국 데이터는 저장돼 있지만 활용하려면 적잖은 시간과 비용을 투입해야 하는 문제에 직면하게 된다.

하임덱스가 AI를 활용해 사업화한 것은 ‘영상 생성’이 아니라 이미 촬영해 보관돼 있고, 가치가 있지만 제대로 활용되지 못하는 데이터를 다시 움직이게 하는 기술이다. 다시 말해 하임덱스의 출발점은 화려한 생성형 데모가 아니라, 조직 안에 축적된 데이터 활용의 병목을 해결하는 데 있다.

물론 방송사 등의 대규모 조직은 ‘MAM(Media Asset Management)’라 불리는 미디어 자산 관리 시스템을 도입해 쓰고 있다. 문제는 이 역시 최초 데이터 입력 시 사람이 일일이 영상을 보면서 등장 인물, 촬영 장소, 회차, 대사, 촬영 맥락 등의 메타데이터를 입력해야 한다는 문제가 있었다. 엄청난 저장 비용도 문제였다. 결국 적잖은 구축 비용을 감당하며 입력 인력과 운영 체계까지 함께 있어야 한다는 전제 조건이 붙는다. 이 대표는 “소규모 조직 등에서는 불가능한 조건”이라며 말을 이어갔다.

“기존 MAM 시스템은 서버를 대여해서 그 서버에 동영상을 올려놓고, 사람들이 일일이 보면서 이 동영상에는 누가 나오고 어디서 촬영했고 무슨 내용이고 몇 회차인지, 대본은 어떻게 됐는지 같은 것들을 다 입력해야 했습니다. 저희는 이 과정을 AI가 할 수 있다고 판단했습니다. 사람들이 원하는 장면을 바로 찾을 수 있도록, 기존 미디어 자산 관리 체계처럼 무겁고 복잡한 구조를 경량화해서 조금 더 편한 편집 경험을 제공하자는 것이 시작이었죠.”

한편으로 강 CSO는 최근 몇 년 새 등장한 클라우드 기반 영상 AI 솔루션 역시 여전히 현장의 문제와 간극이 있다고 짚었다. 클라우드 영상 AI 솔루션은 기술적으로 가능성이 열렸지만, 영상 전체를 외부로 올려야 하는 비용과 시간, 그리고 보안 부담이 새로운 병목으로 남았다고.

“초기 MAM 시스템은 구축비가 10억원 플러스 알파 수준으로 들어가는 식이었습니다. 4년 전부터는 AI 모델들이 나오기 시작해서 클라우드 안에서 검색할 수 있는 시스템들이 생겼지만, 이번에는 클라우드에 영상을 얹어야 하는 비용과 시간을 부담하지 못해 중소 규모의 제작사는 사용을 못 했습니다. 저희는 이 두 가지 문제를 모두 해결하는 시스템을 만들어 고도화하고 있는 중이예요.”

하임덱스가 바라보는 시장은 단지 엔터테인먼트나 방송 영역에 국한되지 않는다. 공공 사법 시스템 등의 영역에서도 활용 가능성을 높게 보고 있다. 가령 로펌에서는 사건 관련 영상과 사진을 사람이 하나하나 검토해야 하고, 보험이나 손해사정에서는 특정 상황이 몇 초에 등장하는지 확인하는 데 시간이 걸린다. 각 산업마다 현장의 표현 방식과 결과물은 다르지만, 병목은 결국 동일하다. 수많은 영상, 이미지 데이터 속에서 정확히 원하는 ‘장면’을 찾는 일이다.

하임덱스는 솔루션 개발 과정에서 강 CSO의 엔터테인먼트 업계 네트워크를 활용해 현업 의견을 들었고, 실제로 “이 문제를 해결할 수 있다면 돈을 지불할 의사가 있다”는 반응을 확인했다. 그 과정에서 실제 초기 솔루션(MVP)을 도입하겠다는 고객까지 만나면서 시장적합성(PMF)를 찾는 과정을 거쳤다. 강 CSO는 “MVP를 가장 빠르게 검증할 수 있는 곳은 구조가 명확한 엔터테인먼트 분야였다”며 말을 이어갔다.

“저희가 첫 번째 시장을 엔터테인먼트로 잡은 건 네트워크가 있다는 점도 있었지만, IP 구조가 명확하기 때문이에요. 등장 인물의 수 같은 것이 확실하니까 초기 MVP를 만들 때 굉장히 용이하다고 판단했습니다. 그 이후에는 투자를 받으며 프로덕트1을 엔터테인먼트용, 프로덕트2를 로펌용으로 개발했죠. 법적 다툼이 있는 사건의 경우 관련 영상과 증거 사진을 하나하나 다 봐야 하거든요. 그런 것들을 해결하는 SaaS로 두 번째 제품화를 진행했습니다.”

즉 하임덱스가 AI를 활용해 사업화한 것은 ‘영상 생성’이 아니라 이미 촬영해 보관돼 있고, 가치가 있지만 제대로 활용되지 못하는 데이터를 다시 움직이게 하는 기술이다. 다시 말해 하임덱스의 출발점은 화려한 생성형 데모가 아니라, 조직 안에 축적된 데이터 활용의 병목을 해결하는 데 있다.

“업로드 없이 자연어로 찾는다”… 원본은 두고 메타데이터만 움직이는 하이브리드 구조

하임덱스의 ‘Vector Native 구조’는 워크스테이션에서 원본 영상을 장면·음성·텍스트로 분해하고, 세부 요소를 벡터화한 사이드카를 생성해 경량화한 뒤 메타데이터만을 활용해 검색 API와 편집 연동을 수행하는 방식이다.

시간과 비용을 절감한다는 점 외에 하임덱스가 전면에 내세우는 또 다른 문구는 ‘업로드 없이 자연어로 검색·편집·활용하는 영상 AI’다. 하임덱스의 ‘Vector Native 구조’는 워크스테이션에서 원본 영상을 장면·음성·텍스트로 분해하고, 세부 요소를 벡터화한 사이드카를 생성해 경량화한 뒤 메타데이터만을 활용해 검색 API와 편집 연동을 수행하는 방식이다. 쉽게 말해 영상은 제자리에 둔 채 AI가 내용을 읽어 메타데이터 지도를 만든 뒤 그 지도를 통해 검색하는 방식에 가깝다. 그래서 사용자는 저장 위치와 상관없이 흩어진 영상을 한 번에 검색할 수 있게 된다. 즉 로컬·클라우드·HDD·NAS의 데이터를 전부 한 번에 관리할 수 있는 셈이다. 이 대표는 그 차이를 기존 MAM과 비교해 좀 더 직접적으로 설명했다.

“기존 미디어 자산 관리 체계는 동영상을 전부 처리해야 되는 경우가 많아요. 그래서 어딘가에 전부 올려야 하고, 그 올린 동영상을 하나하나 직접 열어 라벨링을 해야 합니다. 하지만 저희는 동영상은 그냥 있는 그대로 둔 채 AI가 전체적으로 한 번 보고 나서 그 결과를 클라우드에 저장하는 구조입니다. 그러다 보니까 번거롭게 동영상이 왔다 갔다 할 필요 없이 가능한 한 최소한의 경량화된 데이터만 가지고 움직여서 훨씬 더 빨리 실무에 투입될 수 있습니다.”

기존 클라우드 기반 영상 AI는 영상 1시간당 처리 비용에 더해 클라우드 사용료가 별도로 붙는 구조가 많고, 대용량 업로드 지연과 편집 연계의 어려움도 발생한다. 결국 클라우드 기반 영상 AI도 온프레미스 MAM도 중소기업에겐 비용과 운영 부담이 큰 선택지인 셈이다. 하임덱스는 이 중간에서 ‘원본은 두고 메타데이터만 활용하는’ 방식으로 체계를 바꾸려 한다. 강 CSO는 “지금 영상 AI 시장의 많은 플레이어가 사실상 AI 모델 자체보다 클라우드 스토리지와 인덱싱 비용 구조에서 수익을 내고 있는 상황에서 하임덱스는 이 비용을 줄이는 쪽에 서 있기 때문에 장기적으로도 가격 경쟁력을 확보할 수 있다”며 말을 이어갔다.

“대다수의 영상 AI 모델들이 클라우드를 기반으로 하고 있기 때문에 주 수입원이 사실 AI 모델보다는 클라우드에 있습니다. 그래서 그 매출을 포기할 수가 없는 구조죠. 클라우드에 더해 AI 모델 인덱싱까지 하면 비용이 엄청 비싸거든요. 그런데 저희는 클라우드 스토리지 비용을 최소화하는 팀이기 때문에 비용적인 우위를 계속 가지고 갈 수 있다는 자신감이 있습니다.”

초기 멤버들과 함께한 이장원 대표(오른쪽 세번째), 강희조 CSO(오른쪽 두 번째). (사진=테크42)

하임덱스가 내세우는 더 인상적인 부분은 이들이 ‘검색’을 키워드 일치가 아닌 의미 기반 경험으로 다시 정의한다는 점이다. 가령 기존 시스템은 단어를 정확히 입력해야만 원하는 장면을 찾을 수 있었고, 철자 하나만 달라도 결과가 어긋나는 경우가 많았다. 반면 하임덱스의 솔루션은 장면, 대사, 인물, OCR 정보 등을 벡터화해 맥락과 의미를 기반으로 검색하도록 설계했다. 이 대표는 이를 두고 “머릿속에 떠오르는 장면을 자연어로 질문해 검색할 수 있다”고 설명했다.

“기존 시스템들은 조금이라도 틀리게 작성하면 못 찾았어요. 예를 들어 기존에는 지금 인터뷰를 하는 장소를 조금만 틀리게 검색해도 그 장면을 못 찾습니다. 그런데 저희는 모든 것들이 벡터화로 검색되다 보니까 조금 틀려도, 아니면 아예 다른 표현을 써도 원하는 장면을 찾을 수 있게 설계돼 있습니다.”

여기에 더해 하임덱스는 조직이나 분야별 표현 방식을 학습해 맞춤 워크플로와 검색 방식을 제공한다. 엔터테인먼트를 비롯해 로펌, 제작사, 수사 분야 등 각 영역마다 쓰는 용어와 결과물이 다르기 때문이다. 결국 진짜 진입장벽은 모델 자체보다 도메인별 워크플로에 있다는 것이 하임덱스의 판단이다.

“생성이 아니라 활용에 집중한다”… 엔터에서 로펌, 연구, 수사까지 넓어지는 시장

초기 시장으로 엔터테인먼트를 택했지만, 장기적으로는 법률, 보험, 손해사정, 수사, 로보틱스, 연구기관, 라이브커머스, 외주 제작사 등이 모두 잠재 시장이다. 공통점은 하나다. 영상 데이터가 많고, 그 데이터에 대한 접근성이나 속도, 보안 요구가 높다는 점이다.

하임덱스 측이 인터뷰 내내 반복한 메시지 중 하나는 자신들이 ‘생성형 영상 AI’의 정반대 지점에 서 있다는 점이다. 현재 시장의 많은 플레이어가 영상 제작 자동화, 생성형 편집, AI 기반 합성 등을 전면에 내세우고 있지만, 하임덱스가 상대하는 고객은 애초에 그런 방식으로 대체될 수 없는 영상을 다룬다. 이 대표는 “어떻게 더 빨리 찾고, 더 정확히 분류하며, 더 안전하게 활용할 것인가가 핵심”이라며 말을 이어갔다.

“저희 같은 경우에는 생성형 모델 쪽을 많이 생각하지 않는 이유가, 저희 고객이 겪고 있는 문제는 생성할 수 없는 동영상이기 때문입니다. 예를 들어 배우를 비싼 돈 주고 모셔서 찍은 영상을 굳이 생성으로 대체할 수는 없잖아요. CCTV라든지 법률 데이터 같은 경우에는 오히려 그걸 생성했을 경우 문제가 되는 거고요. 그러다 보니까 있는 동영상을 제대로 활용할 수 있게 도와주는 제품이 반드시 필요하다고 생각합니다. 지금 굳이 동영상 AI라고 해서 무조건 생성을 해야 하는 것은 아니라고 봅니다.”

강 CSO 역시 이 지점을 ‘다크 데이터’ 문제와 연결해 설명했다. 하임덱스가 지향하는 최종 방향 중 하나는 지금 잠들어 있는 90%의 영상 데이터를 구조화해, 검색과 활용뿐 아니라 더 넓은 영상 AI 생태계의 재료로 연결하는 것이다. 이는 생성형 모델의 확산조차 결국 양질의 영상 데이터와 인덱싱, 구조화 과정을 필요로 한다는 문제 의식과 맞닿아 있다. 결국 하임덱스가 지향하는 것은 영상 AI 영역의 상단이 아닌 하단 단단하게 받치는 인프라인 셈이다.

하임덱스가 지향하는 최종 방향 중 하나는 지금 잠들어 있는 90%의 영상 데이터를 구조화해, 검색과 활용뿐 아니라 더 넓은 영상 AI 생태계의 재료로 연결하는 것이다. 이는 생성형 모델의 확산조차 결국 양질의 영상 데이터와 인덱싱, 구조화 과정을 필요로 한다는 문제 의식과 맞닿아 있다.

“한편으로 생각하면 생성형 AI 영상 모델들도 결국 학습을 시키기 위해서는 영상이 필요하거든요. 저희는 그 생성용 AI 모델들이 빠르게 나올 수 있도록 90%의 다크 데이터를 학습할 수 있게 연결하거나 풋티지(Footage, 편집 전 원본 영상)를 제공하는 것이 최종적인 목표 중 하나입니다. 그런 부분에서 차이가 있다고 생각해 주시면 좋겠습니다.”

이 관점은 두 사람이 인터뷰 중간 마다 언급한 하임덱스의 시장 확장 전략에도 녹아있다. 초기 시장으로 엔터테인먼트를 택했지만, 장기적으로는 법률, 보험, 손해사정, 수사, 로보틱스, 연구기관, 라이브커머스, 외주 제작사 등이 모두 잠재 시장이다. 공통점은 하나다. 영상 데이터가 많고, 그 데이터에 대한 접근성이나 속도, 보안 요구가 높다는 점이다. 이 대표는 “실제로 제품을 개발하는 소식이 알려지자마자 예상하지 못했던 산업에서도 협력 요청이 들어왔다”며 또 다른 가능성을 이야기했다.

“처음 저희는 법률과 엔터테인먼트, 딱 두 시장을 타겟으로 잡고 시작했습니다. 라이브커머스 같은 경우는 고려를 많이 안 했던 시장이었는데, 소식을 들은 라이브커머스 기업에서 연락이 와 자신들도 같은 문제가 좀 심각하다고 해서 지금 같이 협업해 제품을 만들고 있는 중입니다.”

현장에서 관찰한 페인포인트도 산업별로 조금씩 다르게 나타난다. 엔터 쪽은 속도가 가장 큰 이슈다. 어제 찍은 영상을 오늘 바로 배포 가능한 클립으로 만들어야 하고, 팬들이 기다리는 콘텐츠를 최대한 빠르게 내보내야 한다. 반면 라이브커머스나 외주 제작사는 특정 제품 구간만 다시 뽑는다거나, 쇼호스트를 제외한 장면만 골라내는 식의 세부 작업이 많다. 법률과 수사 영역은 사건 흐름을 놓치지 않으면서도 검토 시간을 줄이는 것이 중요하다. 결과적으로 각 산업군이 갖고 있는 문제의 공통점을 단순화하면 하임덱스가 최초 집중했던 문제인 수만 시간의 동영상 중에서 정확하게 원하는 몇 초를 찾는 것이라 할 수 있다.

이 대표는 올해 하임덱스의 비전을 한 문장으로 정리해달라는 요청에 “동영상이 가는 곳에는 하임덱스가 간다”라고 답했다. 강 CSO는 올해 목표로 글로벌 고객 다변화와 B2C(개인 고객 대상 비즈니스) 플랫폼 확장, 기술 고도화와 특허 준비, 인재 영입을 함께 언급했다.

“B2C는 B2B와 영상 데이터의 차이도 있고 활용 방식도 다르기 때문에 프라이싱 구조나 에디팅 기능이 더 고도화돼야 합니다. 사용자가 자연어 프롬프트 한 줄이면 원하는 영상이 나올 수 있게 하는 것이 B2C 프로덕트라고 봐주시면 될 것 같습니다. 초기 타깃은 일반 고객이라기보다 어느 정도 데이터를 갖고 있는 마이크로 인플루언서나 유튜버로 잡고 있어요.”

글로벌 확장에 대한 관점도 흥미롭다. 영상 데이터가 폭증하고, 클라우드 비용과 보안 제약이 동시에 존재하는 구조는 해외도 비슷하기 때문이다. 이 대표는 이미 해외 제작자와 논의를 시작한 상태라고 밝혔다.

저장된 영상이 많아질수록 조직은 더 똑똑해지는 것이 아니라, 오히려 더 찾기 어려운 혼란 속에 빠질 수 있다. 하임덱스는 그 혼란을 풀기 위한 답을 ‘업로드 없는 자연어 검색’과 ‘산업별 워크플로’에서 찾고 있다. 인터뷰 말미, 이 대표는 “하임덱스의 정체성을 ‘영상 검색 솔루션 회사’라는 수준에 가두지 않을 것”이라며 더 큰 포부를 밝히기도 했다.

“앞으로도 동영상 AI는 계속 나올 것이고, 동영상 산업에도 AI가 많이 침투할 겁니다. ‘동영상으로 AI 편집을 하겠다’ ‘동영상을 AI로 만들겠다’하는 것들도 결국 동영상 인덱싱이라는 과정이 무조건 필요하거든요. 저희는 그렇게 발전하는 동영상 AI 산업에 뼈대 같은 기업이 되고 싶습니다.”

경제