텐(TEN) 오세진 대표 “인프라 문제 해결로 'AI로운' 세상 만들고파”

글로벌 기술 매거진 CIO 리뷰(Review)는 '2023년 가장 유망한 한국 테크 기업'으로 주식회사 텐(TEN)을 선정했다. 텐(TEN)은 CIO 리뷰가 선정한 20개 유망 테크 기업 중 주요 5개 기업 중 하나로 선정돼 기업의 비전, 주력 서비스 및 인터뷰 등이 함께 소개됐다.

CIO 리뷰는 미국에 본사를 둔 기술 전문 미디어로 매해 연말마다 한 해의 유망 테크기업 20곳을 선정하여 소개하고 있다. CIO 리뷰는 특히 텐(TEN)의 에이아이펍(AI Pub)에 대해, 글로벌 슈퍼컴퓨터를 랭크하는 'Top500' 중에서 126위에 오른 초거대 규모 AI 인프라 클러스터를 관리하는 데에 핵심적인 역할을 했다고 설명했다.

아울러 텐(TEN)은 주력 솔루션 제품인 AI Pub이 GS(Good Software) 인증 1등급을 획득했다고 최근 밝혔다. GS인증은 한국정보통신기술협회(TTA) 산하 소프트웨어 시험인증연구소에서 부여하는 최고 등급 국가 품질인증제도다. 등급이 높을수록 소프트웨어의 높은 품질을 인증 받은 것으로, 인증 획득 시 공공기관 우선구매 대상 기술 개발 제품으로 지정된다.

주식회사 텐(TEN)이 GS 인증 1등급을 획득한 제품인 AI Pub은 AI 인프라를 효율적으로 사용할 수 있도록 지원하는 독보적인 MLOps 솔루션이다. 구축과 유지를 위해 많은 비용을 지출해야 하는 AI 인프라를 AI 개발자가 필요한 만큼 할당 받아 사용할 수 있어, 인프라 비용을 절감하고 효율적인 사용이 가능하도록 해준다.

텐(TEN)의 오세진 대표는 AI가 특정 계층의 전유물이 아닌, 모든 사람이 AI를 통해 가치를 생산하고 그 혜택이 사회 구성원 전체에게 돌아가야 한다고 역설한다. 그래서 회사의 케치프레이즈도 “세상을 널리 'AI롭게' 하자”... 모두에게 이로운 'AI 세상'을 위한 필수 해결 과제인 AI 인프라 문제에 유독 천착해온 텐(TEN)의 오세진 대표를 만나본다.

인공지능 전문기업 ‘텐(TEN)’의 케치프레이즈는 “TEN은 세상을 널리 AI롭게 한다.”로 알고 있다. 이는 누구나 AI를 통해 가치를 생산하고 혜택을 받을 수 있는 세상을 꿈꾸는 것으로 들린다. 텐이 꿈꾸는 세상은?

대학원에서 인간의 소리 인지와 머신러닝을 전공하면서 '인공지능(AI)'에 대해 공부했다. 과거의 머신러닝은 복잡한 통계 분포와 미적분을 통해 현상을 이해하므로, 특정 지식인만이 할 수 있었다. 그러나 AI는 잘 만든 학습 데이터만 있으면 누구나 자기만의 AI를 만들 수 있다. 앞으로 AI 기술이 세상을 크게 바꿀 것이고, AI를 보편화하는 것이 중요한 세상이 올 거라는 직관을 바탕으로 주식회사 텐이 탄생했다.

주식회사 텐(TEN)은 AI가 특정 지식인들의 전유물이 아닌, 모든 사람이 AI를 통해 가치를 생산하고 그 혜택이 사회 구성원 전체에게 돌아가는 세상을 만들기 위해 노력하고 있다. 세상을 널리 'AI롭게(AI로 이롭게)' 하기 위해서, 텐(TEN)은 AI 보편화에 걸림돌이 되는 문제들을 해결해 나가고자 한다. 그중 우리가 주목한 것은 AI를 개발하고 학습하는 데 필요한 서버, 바로 '인프라' 문제다.

현대는 인공지능의 시대라고 말한다. 인공지능 개발을 위해선 ‘인력, ’데이터‘ 그리고 ’인프라‘가 필수 요소다. 그중 인력과 데이터는 시간과 노력을 투입해 개선할 수 있으나 인프라 개선은 비용의 문제다. 비용은 무한정 투입될 수 없다. 텐은 특히 이 문제에 주목하고 천착하는 것으로 알고 있다.

'인프라'는 새로운 AI 모델에만 초점이 맞춰져 사람들이 잘 알지 못하는, 'AI'의 첫 번째 허들이다. AI는 전통적인 통계적 패턴인식과는 다르게 컴퓨팅 파워와 인식 성능이 매우 강한 비례 관계를 맺고 있다. 이로 인해 거대 언어 모델(LLM)과 같은 대형 모델이 등장하게 되었다. '하이퍼스케일' 혹은 '초거대'라고 불리는 이런 모델들을 학습하기 위해서는 GPU와 같은 가속기(Accelerator)를 다수 붙여 연산 요구량을 해결해야 한다. 그러다 보니 많은 사람이 GPU만 중요하다고 여겨, 보유한 예산을 모두 높은 성능의 GPU를 확보하는 것에 투자하고 있는 실정이다.

GPU 확보에만 집중하면, '인프라'에 대한 두 가지 중요한 지점을 놓칠 수 있다. 첫째, GPU를 다수 확보해서 연결하는 과정에 GPU뿐만 아니라 '네트워크' 역시 중요하여, 네트워크 장비 역시 알맞게 구입해야 한다. 둘째, 아무리 GPU가 빨라도 방대한 학습 데이터를 가져오는 것이 느리면 GPU는 데이터 전송을 기다리는 동안 방치되므로, 알맞은 성능의 스토리지를 구입해야 한다.

처음에는 GPU 확보에 집중하겠지만, 점차 네트워크와 스토리지의 중요성을 깨닫고 인프라를 구축해 나가면서 큰 비용이 들게 된다. 전통적인 IT 장비들에 비해 비교도 안 될 만큼의 높은 비용이다. 그런데 인프라를 필요한 스펙에 맞춰 구성하는 방법을 찾아보기도 힘들고, 설령 장비를 구매했다고 해도 이를 효율적으로 사용하기 위한 소프트웨어 도구 또한 찾아보기가 어렵다. 많은 돈을 들여 인프라를 구축하려는데, 비용 지출에 대한 근거 마련은 물론이고 확신도 들지 않게 된다면 어떤 기업에서 자신의 서비스를 AI로 구체화할 수 있겠는가? 우리는 이 지점에 공감하면서, 우리가 가진 문제의식과 기술력을 활용해 AI 인프라 문제를 해결하는 가이드라인과 소프트웨어 도구를 제공하게 되었다.

AI 모델 운영 및 배포까지 해결해야 할 기술적 과제들이 많고 길게는 수개월이 소요되기도 한다. 특히 GPU 자원의 최적화 사용은 AI 모델 전문가 영역이 아니다. 클라우드는 비싸고, 온프레미스를 위해 서버를 구입하면 직접 OS부터 설치해야 한다. 마땅한 인력을 찾기도 구하기도 어렵다. 또 GPU 자원 할당을 위해 그 많은 노드 하나하나 찾아 들어가는 일을 하루 종일 반복하기도 어렵다. 이에 대한 텐의 대안은?

AI로 세상이 떠들썩하지만, 그에 비해 AI 모델과 서비스를 본격적으로 도입한 기업은 얼마 되지 않는다. 그러니 GPU 자원을 최적화하여 사용하는 선례를 찾기가 어려울 수밖에 없다. 그래서 처음 AI를 도입하는 기업들은 AWS나 GCP, Azure 같은 퍼블릭 클라우드를 써서 빨리 컨셉을 증명해 보는 전략을 짠다. 컨셉 증명이 어느 정도 완료되고 제대로 투자해도 되겠다는 결심이 섰을 때 인프라 구축을 생각하는 방식이다. AI 사업화에 대한 확신이 없는 상태에서 인프라를 구축하려 하면 리스크 대비 초기 투자 비용이 부담스럽기 때문이다.

클라우드에서 벗어나 온프레미스(On-Premise) 자산 형태로 인프라를 구축하게 되면, 비용(TCO) 절감 효과가 크다. 그러나 자체 구축을 하게 되면 클라우드에서 편하게 사용하던 서비스들이 모두 없어진다는 문제가 있다. 직접 인력과 비용을 투자하려 하면, 언제 플랫폼을 구축할 수 있을지, 지티엠(GTM, go-to-market)은 언제 가능할지 확신할 수 있는 것이 없다. 결국 울며 겨자 먹기로 클라우드의 비용을 계속 부담하면서 AI를 개발, 운영하게 되기도 한다.

온프레미스 도입에 대한 예를 들었지만, 질문에 언급된 다양한 문제들도 그와 동시에 존재한다. 텐(TEN)은 이런 어려움을 해결하기 위해 인프라 관련 기능을 강화한 플랫폼 '코스터(Coaster)'를 제공하고 있다. 쿠버네티스(Kubernetes)를 기반으로 GPU를 100분할 할 수 있는 기능을 개발해 탑재하였으며, GPU와 컨테이너를 최적으로 제어할 수 있도록 했다. 코스터로 다수의 GPU 현황을 동시에 파악해서 관리하고, GPU 자원을 할당해 주고, 그 자원에 대한 권한도 사용자별로 다르게 할 수 있다. 코스터로 GPU 자원을 관리하면 GPU의 성능이 91% 가까이 개선되어 비용 절감 효과를 누릴 수도 있다.

아직 AI 도입 초기라, 인프라의 규모가 크지 않은 기업들이 많다. 내부적으로 오픈소스를 조합하고 운영 인력을 투입해서 인프라를 운영한다. 그러나 점차 인프라 규모가 커질 수밖에 없기에 금방 한계가 오게 된다. 코스터처럼 한 번에 인프라를 관리할 수 있는 서비스가 꼭 필요하게 되는 순간이 오는 것이다.

인공지능 인프라 문제를 해결해 주는 텐의 핵심 솔루션은 ’코스터(Coaster)‘와 ’에이아이펍(AI Pub)‘으로 알고 있다. 특히 AI Pub은 한정된 AI 인프라를 여러 개발자가 효율적으로 나눠 사용하고, 다양한 인프라 패턴에 맞춰 GPU 인프라 리소스를 블록 단위까지 관리하는 것으로 들었다. 뿐만 아니라 AI Pub은 초보자도 쉽게 사용할 수 있다고 하던데...

AI 도입 과정에서 맞닥뜨리는 다양한 문제점들을 해결하기 위한 쿠버네티스 플랫폼 형태의 도구가 코스터(Coaster)라면, 에이아이펍(AI Pub)은 AI 인프라를 비(非)전문가도 관리할 수 있도록 최적화된 솔루션의 형태다. 그리고 AI 학습과 인퍼런스(Inference) 관점에서 인프라 리소스를 관리하는 관점이 다르기에 에이아이펍(AI Pub)을 에이아이펍 데브(AI Pub Dev)와 에이아이펍 옵스(AI Pub Ops)로 나누고 있다.

AI 학습에서 인프라 리소스를 활용할 때, 많은 사람이 다수의 GPU를 묶어 사용하게 된다. 그 때문에 인프라의 사용률을 최대로 끌어올려 학습 기간을 단축할 수 있게 하고, 학습이 끝나는 즉시 GPU 자원을 회수하여 효율을 추구하는 것이 중요하다. 반대로 AI의 운영 과정에서는 특정 인퍼런스 서비스가 일정한 자원을 점유한 상태가 지속되고 자원의 유지 비용이 서비스를 운영하는 '원가'에 반영된다. 따라서 서비스 운영에 맞춘 합리적인 규모의 인프라 자원을 할당하고, 인퍼런스의 문제로 인프라 자원이 낭비되거나 유휴 상태로 방치되어 있는지 확인하는 것이 더 중요한 문제가 된다. 이 중 AI 학습의 인프라 문제를 해결하는 제품이 에이아이펍 데브(AI Pub Dev)이고, AI 서비스 운영의 인프라 문제에 초점을 맞춘 것이 에이아이펍 옵스(AI Pub Ops)다.

에이아이펍 데브(AI Pub Dev)와 에이아이펍 옵스(AI Pub Ops)는 앞서 설명한 코스터(Coaster)를 기반으로 한 솔루션이다. 코스터(Coaster)의 기능을 누구나 쉽게 사용할 수 있도록, 에이아이펍 데브(AI Pub Dev)와 에이아이펍 옵스(AI Pub Ops)에 웹페이지와 동일한 방식의 UI를 적용했다. 예를 들어, GPU 자원 할당에 우선순위를 설정하는 코스터(Coaster)의 스케줄러 기능을 에이아이펍 데브(AI Pub Dev)에서 웹 형식의 UI로 사용할 수 있다. 코스터(Coaster)의 GPU 100분할 기능은 인프라 자원을 필요한 만큼만 잘라서 활용할 수 있게 해주는데, 서비스 원가를 획기적으로 줄일 수 있어 AI 인퍼런스 서비스에서 특히 유용한 기능이다. 에이아이펍 옵스(AI Pub Ops)를 통해 이용할 수 있다. 인프라 관리자, 서비스 운영자 모두 AI에 대해 잘 모르더라도 본인들의 업무에 필요한 기능들이 우리에게 친숙한 UI로 제공되므로 원활한 업무 처리, 커뮤니케이션을 할 수 있게 된다.

▷ AI Pub 도입 이후 기업의 총 운영 비용이 1/10까지 줄었다고 들었다. 인공지능 시대 기업의 아픈 부분 즉 ‘페인 포인트’를 해결해주는 솔루션인 것 같다. 텐(TEN)의 2024년 계획은?

코스터의 GPU 분할 기술과 에이아이펍(AI Pub)을 이용하는 고객분들이 운영 비용을 줄이고 인공지능 서비스를 궤도에 안착시키는 것을 보면 매우 기쁘며 큰 성취감을 느낀다. 인프라의 효율적인 관리와 활용을 도모하기만 해도, AI 도입과 운영 과정에서 발생하는 다양한 문제들이 해결된다. 예를 들어, 에이아이펍(AI Pub)을 활용하면서 인프라 관리를 위한 전문 인력이 필요하지 않게 되고, AI 개발자는 AI 개발에, 서비스 운영자는 서비스에 집중할 있게 된다. 불필요하게 낭비되는 인프라가 없으니 유지 비용도 감소한다. 인프라 추가 구축도 이전까지의 현황 데이터를 참고하여 정확하게 결정할 수 있다. 그 결과 운영 비용이 90%까지 줄어들 수 있다. 최근 인퍼런스 서비스의 자원 비용을 줄이고자 sLLM(경량언어모델)처럼 모델 크기를 줄이는 연구가 나오고 있다. 그러나 모델의 크기를 아무리 작게 줄여도 그에 맞는 인프라 자원을 분할해서 할당할 수 없다면, 모델을 작게 만든 효과를 제대로 누릴 수 없다. 어떤 모델이든 인프라의 효율성 문제에서 자유로울 수 없다. 에이아이펍(AI Pub) 같은 인프라 전용 솔루션의 역할이 중요하다고 말씀드리고 싶다.

올해 텐(TEN)은 글로벌 슈퍼컴퓨터를 랭크하는 'Top500' 중에서 126위에 오른 초거대 규모 AI 인프라에 클러스터링하여 에이아이펍(AI Pub)을 공급했다. 이런 초거대 규모의 인프라 클러스터링 경험은 국내 소수의 IT 대기업을 제외하고는 거의 없을 것이라, 텐이 독보적인 노하우를 갖고 있다고 자부할 수 있다. 이 노하우는 에이아이펍(AI Pub)에 추가되는 신규 기능에 반영되고 있다. AI 보편화에 걸림돌이 되는 문제들을 해결하고자, 인프라 노하우를 공유할 수 있는 서비스인 랙스(RA:X)도 출시했다.

우리는 홈페이지의 모든 페이지 하단에 “AI 개발, 운영에 대한 문의 사항을 TEN에게 보내주세요.”라고 안내하고 있다. AI 인프라 전문 솔루션을 제공하는 동시에, AI 도입 과정에서 필요한 점이 있다면 텐(TEN)이 언제든 도움을 드리고 싶다. 2023년에 손님 맞을 준비를 마쳤으니, 2024년부터는 텐(TEN)의 존재를 알리고 랙스(RA:X)를 통해 AI 도입을 고민하는 기업들을 더 많이 도울 계획이다. 세상을 널리 'AI롭게' 하기 위해 한 발 더 나가고 싶다.

(*) 텐의 오세진 대표는?

사람이 음악을 어떻게 인지하는지 궁금해서 시작한 연구에서 머신러닝을 전공하게 되었다. 이후 딥러닝을 통해 누구나 쉽게 인공지능을 만들 수 있는 시대가 올 것을 예감하고 그 보편화를 위한 도구를 만드는 일을 하기로 결심, 창업하게 되었다. 다양한 인공지능 구축 과제를 통해 비용적으로 가장 부담되는 GPU 인프라에 대한 문제의식을 느끼게 되었으며, GPU 인프라를 효율적으로 사용하는 제품을 만들어서 '세상을 AI롭게 하자'라는 비전을 실현 중이다.

전자신문인터넷 유은정 기자 judy6956@etnews.com

이 기사에 대해 어떻게 생각하시나요?

전자신문에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

텐(TEN) 오세진 대표 “인프라 문제 해결로 'AI로운' 세상 만들고파”