[AI리더스] 데이터독 "배보다 배꼽 큰 AI 지출, '자율 운영'으로 해소"

남혁우 기자 2026. 7. 2. 09:17
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

토큰 비용·GPU 관리·보안 통제까지…옵저버빌리티 플랫폼 역할 주목

(지디넷코리아=남혁우 기자)생성형 인공지능(AI) 도입이 실험 단계를 넘어 본격적인 업무 환경으로 확산되면서 기업들의 고민도 새로운 국면에 접어들고 있다.

AI 서비스 개발 경쟁이 가속화되면서 그래픽처리장치(GPU) 등 인프라 투자 부담이 커지고 있고, 토큰 사용량 증가에 따른 비용 관리, AI 확산으로 넓어진 보안 취약점, 운영 거버넌스 구축 등 해결해야 할 과제도 함께 늘어나고 있기 때문이다.

서울 강남구 빗썸타워에서 만난 엄수창 데이터독 코리아 지사장과 정영석 기술총괄은 이러한 변화 속에서 기업들의 관심이 'AI 도입'에서 'AI 운영'으로 이동하고 있다고 진단했다.

엄수창 데이터독 코리아 지사장(사진=지디넷코리아)

엄수창 지사장은 "이제는 AI를 얼마나 많이 도입했는지가 아니라 얼마나 안정적이고 효율적으로 운영하느냐가 기업 경쟁력을 결정하는 시대"라며 "AI 운영과 거버넌스가 새로운 핵심 과제로 떠오르고 있다"고 말했다.

토큰 비용·GPU 관리·보안 통제 등 늘어나는 운영 부담

정영석 기술총괄은 많은 기업이 AI 도입 이후 예상치 못한 운영 비용 증가와 복잡성 확대에 직면하고 있다고 설명했다.

그는 "현재 AI를 운영하는 기업의 70% 이상이 3개 이상의 생성형 AI 모델을 동시에 활용하고 있으며 평균 토큰 사용량도 전년 대비 2배 이상 증가했다"며 "예전에는 클라우드 인프라나 스토리지 비용이 중심이었다면 이제는 LLM 사용료가 전체 비용의 10~20% 수준까지 증가하는 사례도 나타나고 있다"고 밝혔다.

특히 기업들이 오픈AI, 클로드 등 다양한 모델을 혼용하면서 운영 복잡성이 급격히 높아지고 있다는 분석이다. 실제로 발생하는 상당수 AI 서비스 장애 역시 모델 자체의 문제가 아니라 호출 제한(Rate Limit)이나 운영 설정 미흡 등 관리 문제에서 비롯된다는 설명이다.

데이터독의 비츠 AI 시큐리티 애널리스트(이미지=데이터독)

정 기술총괄은 "경영진은 AI 투자 효과와 비용 효율성을 동시에 확인하고 싶어 하지만 아직 어떤 조직이나 개발자가 어떤 모델을 사용하고 있고 얼마나 많은 비용을 발생시키는지 정확히 파악하지 못하는 경우가 많다"며 "AI 시대에는 비용 거버넌스가 중요한 경영 과제가 되고 있다"고 말했다.

더불어 기업에서 가장 크게 우려하는 이슈로 공급망 공격(Supply Chain Attack)과 프롬프트 인젝션 공격 등 보안 우려도 지목했다. 생성형 AI와 AI 코딩 도구 활용이 늘면서 검증되지 않은 외부 라이브러리나 오픈소스 코드가 기업 환경에 유입되는 사례가 증가하고 있기 때문이다.

정 기술총괄은 "AI 에이전트와 바이브 코딩 도입으로 개발 생산성은 크게 높아졌지만 동시에 공격 표면도 넓어졌다"며 "API 키 노출이나 취약한 라이브러리 사용 같은 문제가 새로운 보안 리스크로 떠오르고 있다"고 말했다.

 AI로 장애 분석·복구까지 통합 관리

데이터독이 제시한 해법은 'AI 옵저버빌리티(AI Observability)'다. AI 모델의 성능과 비용, 보안 상태, 응답 품질 등을 하나의 플랫폼에서 통합 관리해 AI 운영 전반에 대한 가시성을 확보하는 방식이다.

정 기술총괄은 "어떤 모델이 가장 효율적인지, 어떤 프롬프트가 비용을 많이 발생시키는지, 어느 구간에서 오류가 발생하는지를 파악해야 최적화도 가능하다"며 "AI 옵저버빌리티는 모델별 사용량과 토큰 비용, 응답 품질, 오류 현황을 실시간으로 추적해 기업이 운영 체계를 구축할 수 있도록 지원한다"고 설명했다.

AI가 단순히 장애를 감지하는 수준을 넘어 원인을 분석하고 대응 방안을 제시하며, 향후에는 복구 과정까지 자동화하는 방향으로 진화하고 있다는 설명이다.

데이터독의 AI 에이전트 오류 디버깅 도구 '비츠 이벌'(이미지=데이터독)

이를 위해 데이터독은 AI 에이전트 플랫폼 '비츠 AI(Bits AI)'를 중심으로 운영 자동화 기능을 확대하고 있다.

정 기술총괄은 "기존에는 수십 명의 운영 인력이 로그를 분석하고 장애 원인을 추적해야 했다면 앞으로는 AI가 인프라 확장과 축소, 취약점 탐지, 장애 복구까지 상당 부분 수행하게 될 것"이라며 "운영 인력은 반복 업무보다 서비스 혁신과 고도화에 집중하게 될 것"이라고 말했다.

실제로 데이터독에 따르면 '비츠 AI 포 SRE(Bits AI for SRE)'는 장애 분석 및 복구 과정에서 평균 대응 시간을 최대 90% 단축했으며, 보안 분석 기능인 '비츠 AI 시큐리티 애널리스트'는 위협 조사 시간을 최대 98% 줄여준다.

엄수창 데이터독 코리아 지사장(왼쪽)과 정영석 기술총괄(사진=지디넷코리아)

삼성전자·GS리테일 등 AI 운영 자동화 확산

AI 도입이 본격화되면서 국내 기업들의 AI 운영 고도화도 빨라지고 있다. 대표적인 사례가 삼성전자 어카운트 서비스다. 갤럭시 기기 로그인과 직결되는 핵심 인프라인 만큼 365일 무중단 안정성이 필수다.

삼성전자는 데이터독 '모델컨텍스트프로토콜(MCP) 서버'를 활용해 장애 감지부터 원인 분석, 복구까지 이어지는 과정을 자동화했다. 알람이 울리면 시스템 데이터를 자동으로 수집하고, AI 및 AWS 베드락과 연계해 인사이트를 도출한다. 특정 클라우드 리전에 장애가 발생하면 다른 리전으로 서비스를 자동 전환하는 자율 운영 체계도 갖췄다. 이 성과는 올해 미국에서 열린 데이터독 연례 행사 '대시(DASH)'에서 성공 사례로 직접 발표됐다.

GS리테일도 데이터독을 도입해 인프라부터 애플리케이션 로그, 네트워크, 보안까지 단일 플랫폼으로 통합한 전방위 관제 체계를 구축했다. 아모레퍼시픽, KT, 크래프톤, 신세계인터내셔날 등도 데이터독 코리아의 주요 고객사로 자리 잡고 있다.

정 기술총괄은 "MCP를 활용하면 엔지니어가 복잡한 시스템 구조를 일일이 알지 않아도 자연어 질의만으로 장애 원인과 대응 방안을 파악할 수 있다"며 "AI 운영의 핵심은 데이터를 얼마나 효과적으로 연결하고 활용하느냐에 달려 있다"고 설명했다.

비츠 에이전트 빌더(이미지=데이터독)

48분기 연속 성장 중인 한국…핵심 리전으로 주목

데이터독 본사는 한국 시장을 전 세계에서 가장 빠르고 역동적으로 움직이는 핵심 리전으로 평가하고 있다. 창업자이자 CTO와 CEO가 정기적으로 한국을 찾는 이유다. 글로벌 SaaS 벤더 중 이례적으로 한국 지사에 대규모 기술지원 엔지니어 팀을 직접 상주시키는 것도 같은 맥락이다.

이 같은 투자는 실적으로 이어지고 있다. 데이터독 코리아는 지사 설립 이후 48분기 연속 성장을 이어가고 있으며, 엄 지사장 부임 2년여 만에 임직원 수는 2배 이상 늘어 현재 100명을 넘어섰다.

엄수창 지사장은 "AI 경쟁력의 기준이 단순한 도입 규모에서 운영 효율성과 거버넌스로 빠르게 이동하고 있다"며 "앞으로 기업들은 AI 모델과 인프라, 보안 데이터를 통합 관리하면서 비용과 성능을 동시에 최적화해야 한다"고 말했다.

이어 "데이터독은 AI 옵저버빌리티와 자율 운영 기술을 기반으로 기업들이 복잡한 AI 운영 환경을 안정적으로 관리할 수 있도록 지원할 것"이라며 "궁극적으로는 AI가 스스로 문제를 감지하고 대응하는 'AI 자율 운영 시대'를 앞당기는 것이 목표"라고 강조했다.

남혁우 기자(firstblood@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.