래블업 "20% 수준 GPU 효율, 90%로 끌어올린다"

김준기 최고기술책임자 "AI 서비스 개발 집중하도록 고객 지원"

(지디넷코리아=남혁우 기자)“대규모 인공지능(AI) 개발 프로젝트는 비효율적인 구조로 인해 그래픽카드(GPU) 효율이 20~30% 수준에 머무는 경우가 많다. 백엔드.AI는 프로세스 최적화를 통해 90% 이상으로 향상시킬 수 있다.”

김준기 래블업 최고기술책임자(CTO)는 지난 25일 서울 강남구 역삼동 사옥에서 진행한 인터뷰에서 딥러닝 전용 인프라 모니터링·관리 플랫폼 '백엔드.AI'를 소개했다.

백엔드.AI는 GPU인프라를 가상화해 하나의 플랫폼에서 수천 개 이상의 GPU를 실시간으로 동시에 확인하고 관리할 수 있도록 지원한다. 이를 통해 다수의 팀이 함께 진행하는 대규모 AI 프로젝트 중 낭비되는 인프라를 최소화해 생산성을 높이고, 비용을 최적화할 수 있다.

김 CTO는 “예를 들어 여러 팀이 함께 진행하는 대규모 프로젝트는 모니터링 시스템이 갖춰져 있지 않을 경우 인프라 낭비가 상당하다”며 “현재 누가 얼마나 GPU를 사용하고 있는지 확인할 수 없기 때문에 프로세스 공백이 발생해 GPU 실제성능의 20~30% 정도만 활용하는 경우가 많다”고 설명했다.

이어서 “이러면 고가의 그래픽카드를 이용해 대규모 인프라를 구축한 효과를 거의 보지 못하고 막대한 비용 손실만 발생한다”며 “백앤드.AI는 GPU 휴면시간이 발생할 경우 즉시 다른 워크로드가 실행되도록 구현할 수 있어 프로세스 효율을 90% 이상 끌어올릴 수 있다”고 말했다.

래블업은 효율적인 GPU 활용을 위해 보안격리, 버전관리, 언어별 SDK, 자원할당, 모니터링 등 AI 연구, 개발에 필요한 기능도 통합 제공한다. 특히 서비스 규모에 따라 사용하는 GPU 수를 자동으로 조절하는 오토스케일링과 업무 중 발생한 오류를 자동으로 확인하고 대처하는 자동화 툴을 지원해 고객사의 업무 부하를 줄이는데 집중했다.

김 CTO는 “백엔드.AI는 신정규 대표가 포스텍 전산학과에 학부생으로 재학당시 AI연구를 위해 1천 대 규모의 클러스터를 관리하는 과정에서 탄생하게 됐다”며 “컴퓨터를 1천대 정도 관리하면 확률적으로 매일 한 대 이상 고장이 나거나 오류가 발생하기 마련인데, 이를 직접 수정하거나 관리할 경우 업무상 상당한 시간 및 비용손실을 감당할 수 밖에 없었다”며 백엔드.AI를 개발하게 된 계기를 설명했다.

이어서 “그래서 이런 불편함과 손실을 해결하기 위해 오픈소스 기반 자동화 도구를 활용해 사용자의 개입없이 스스로 컴퓨팅 자원을 관리하고 운영할 수 있는 서비스를 개발하게 됐다”며 “이를 통해 고객사는 불필요한 인프라 관리에 신경 쓸 필요 없이 목표로 한 AI 서비스 개발에 집중하면 된다”고 설명했다.

래블업의 백엔드.AI는 슈퍼컴퓨터 인프라 분산 관리 기술과 클라우드의 멀티테넌트 기술을 통합한 서비스다. ‘엔비디아 DGX 레디 소프트웨어 프로그램’ 파트너사로 선정되며 엔비디아로부터도 기술력과 신뢰성을 인정받았다.

김준기 CTO는 백엔드.AI 플랫폼의 장점으로 오픈소스 기반으로 개발됐다는 점을 꼽았다. 아마존웹서비스(AWS), 마이크로소프트 애저 등 특정 클라우드 플랫폼에 종속되지 않아 자유롭게 기업에서 원하는 방식으로 서비스 환경을 구축하고 활용할 수 있다는 설명이다.

그는 “특히 국내 기업은 데이터 보안과 규제 등으로 인해 퍼블릭 클라우드 보다 프라이빗 클라우드나 온프레미스를 활용하는 것을 선호한다”며 “또한 클라우드는 데이터를 옮기거나 사용할 때 과금하는 방식인 만큼 끊임없이 데이터를 처리해야 하는 AI는 비용적인 면에서도 온프레미스가 유리할 가능성이 크다”고 설명했다.

또한 오픈소스 기반으로 개발된 만큼 다양한 AI, 클라우드 관련 오픈소스를 활용해 기업에서 원하는 환경에 맞춰 서비스 환경과 인프라를 최적화할 수 있다.

김 CTO는 “AI관련 플랫폼을 서비스한다고 하니 일부에서는 텐서플로나 파이토치와 경쟁하는 것이냐고 물어보는 경우가 있다”며 “우리는 그런 프레임워크가 보다 효율적으로 AI를 개발할 수 있도록 GPU인프라의 생산성을 높여 지원하는 공생관계라 할 수 있다”고 설명했다.

래블업은 삼성전자, LG전자, LG CNS, KT, 롯데정보통신, CJ올리브네트웍스 등 주요 IT기업에 백엔드.AI를 서비스 중이다. 한국은행, 한국전자통신연구원(ETRI), 한국과학기술연구원(KIST), 한국정보통신기술협회(TTA) 등 금융사와 공공 분야에서도 백엔드.AI 도입이 빠르게 확산되고 있다.

김준기 CTO는 “국내에서 AI에 대한 관심이 급격하게 증가하면서 단기간 내에 좋은 성과를 거뒀다”며 “이제 이런 성과를 글로벌 시장으로 확장시키는 것을 목표로 삼고 글로벌 주요 IT컨퍼런스를 참가하며 서비스를 알리고 있다”고 밝혔다.

이어서 “먼저 싱가포르, 일본, 호주 등 아시아 태평양 지역을 중심으로 서비스를 확대하려 하고 있으며, 추후 북미, 유럽 진출위한 준비도 현재 진행하고 있다”며 “국내에서도 삼성전자 등 좋은 선례를 확보한 후 사업이 성장한 만큼 글로벌 시장도 비슷한 전략을 유지하려 한다”고 글로벌 사업 전략을 설명했다.

특히 래블업은 고객 지원 전문 엔지니어를 추가로 확보하며 AI에 대한 역량이 부족한 기업을 지원하기 위한 기반을 더욱 확고히 할 계획이다.

그는 “챗GPT의 등장으로 AI가 비즈니스 모델이 된다는 것을 알고 이 분야에 도전하지만 기술이나 비용적인 어려움을 겪는 기업을 많이 만나왔다”며 “이런 기업들이 AI서비스 개발에만 집중할 수 있도록 GPU 관리 분야는 후방에서 지원할 수 있도록 최선을 다하겠다”고 말했다.

남혁우 기자(firstblood@zdnet.co.kr)

IT/과학

래블업 "20% 수준 GPU 효율, 90%로 끌어올린다"