[기고] 데이터센터의 새 화두 '비용 효율화·AI옵스'

오동열 한국주니퍼네트웍스 기술본부장 상무 2023. 12. 21. 09:00
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오동열 한국주니퍼네트웍스 상무

(지디넷코리아=오동열 한국주니퍼네트웍스 기술본부장 상무)인공지능(AI) 데이터센터들은 과연 클라우드로 전환할 것인가, 전환하지 않을 것인가? 한 때 이 질문이 업계의 뜨거운 화두였던 시기가 있었다. 5년 전, 10년 전 즈음에 더 큰 유연성과 낮은 비용이라는 유토피아적인 공약에 현혹된 기업들이 너도나도 퍼블릭 클라우드 앞을 향해 달려갔다. 하지만 결국 대부분의 기업들은 퍼블릭 클라우드가 생각만큼 간단하고 저렴하지 않다는 사실을 그리 오래되지 않아 깨달았다. 

이제 새로운 화두는 ‘클라우드에 대한 후회’다. 워크로드를 다시 프라이빗, 온프레미스 데이터센터로 이전하는 기업들이 점점 더 늘어나고 있다. 내년 데이터센터 분야에서는 이같은 내용을 중심으로 본격적인 변화가 일어날 것으로 예상된다.

새로운 AI 데이터센터 인프라 계획에서 이런 결정이 포착되고 있다. 이번에는 기업들이 더 현명하고 신중하게 결정을 할 것으로 보인다. 온프레미스나 퍼블릭 클라우드 또는 하이브리드를 선택하는 결정은 이전보다 경험을 바탕으로 전문적으로 이뤄질 것이다. 새로운 GPU 클러스터 구축은 많은 비용이 들지만 하이퍼스케일러에서 해당 용량을 임대하는 일도 큰 차이는 없다. 많은 기업들이 더 나은 제어, 더 엄격한 보안, 그리고 더 낮은 비용을 위해 퍼블릭 클라우드보다 온프레미스 AI 데이터센터 구축을 선택할 것이다.

오동열 한국주니퍼네트웍스 상무

인프라 벤더들은 계속해서 더 효율적인 장비들을 설계 및 개발할 것으로 예상된다. 하지만 신규 AI 모델 학습을 위한 엄격한 요구로 인해 데이터센터 랙은 계속해서 더 많은 전력을 소비할 수밖에 없다. 랙 전력 소비가 10kW에서 이제는 100kW가 넘는 경우도 있다. 

이로 인해 데이터센터 시설에 대한 전력 수요와 냉각 요구는 엄청난 크기로 증가하고 있다. 재생 에너지의 중요성은 더욱 커지고, 100% 재생 에너지로 구동되는 데이터센터가 일반화되며, 데이터센터 구축 계획에서 서늘한 기후와 태양광, 풍력, 수력을 이용할 수 있는 지리적 요건이 갈수록 중요하게 고려될 것이다. 액침냉각 같이 전력 소비를 최소화하는 냉각 방식이 실험 단계에서 등장을 예고하고 있다. 심지어 고객들은 코로케이션 시설에서 BYOP(자체 전력 사용)를 요청받을 수도 있다.

새로운 클라우드 엔지니어들은 기존 네트워크 엔지니어들의 영역을 계속 침투하고 있다. 예전부터 사용되던 네트워크 도구가 여전히 사용되고 있고 레거시 기술을 완전히 제거할 수는 없겠지만, 퍼블릭 클라우드뿐만 아니라 프라이빗 인프라를 실행하는 데에도 클라우드 기술이 점점 더 많이 사용될 것이다. 네트워크 엔지니어가 살아남기 위해 소프트웨어 개발자가 될 필요는 없지만, '테라폼' 같은 클라우드 도구에 익숙해질 필요는 있다. 클라우드 기술과 원활하게 통합할 수 있는 기존 네트워킹 도구는 번창하겠지만 통합이 어렵고, 사일로화된 무겁고 오래된 네트워크 관리 시스템은 도태될 것이다.

AI옵스는 데이터센터 전반으로 확산될 것이다. 애플리케이션과 워크로드가 크게 증가하면서, 요구 사항을 맞추면서 우수한 최종 사용자 경험을 제공하는 것이 그 어느 때보다 중요해졌다. 네트워킹에서 AI옵스는 사용자 네트워크 환경에서 보안과 간단한 이용 사례를 위주로 이뤄졌다. 데이터센터에서 AI옵스의 첫 주요 사용 사례는 예측 기반 관리 및 문제 해결 부문이 될 것이다. AI옵스 도구는 문제를 예고할 수 있는 패턴을 찾고, 성능 저하 또는 장애 방지에 필요한 트렌드를 IT 부서에 사전에 알려준다. 문제가 발생하면 AI옵스는 네트워크 운영자가 일반적으로 수행하는 문제 해결 단계를 수행하고 결과를 제시해 문제 해결 및 정상화 시간(MTTR)을 대폭 단축하고, 마찬가지로 중요한 결백증명시간(MTTI)도 줄여준다. 

AI 기반 거대언어모델(LLM)은 거의 모든 인터페이스에 통합될 것이다. 운영자가 복잡한 시스템을 빠르게 탐색해 현재 네트워크 상태부터 구성 변경 또는 권장 업그레이드에 이르기까지 모든 것에 대한 답을 빠르게 얻을 수 있게 된다.

이제 사용자들은 단순히 군중심리에 휘둘려 데이터센터를 구축하지 않는다. 사용자들은 관리가 더 용이하면서, 철통 같은 보안과 비용 효율적인 측면에서 더 나은 방향으로 빠르게 나아가고 있다. 이를 위해 솔루션 벤더들은 고객이 원하는 고성능 장비를 출시하고, 네트워크 엔지니어들은 클라우드 기술까지 숙지해야만 하는 상황이다. AI옵스의 대두와 AI 기반 LLM의 적용 확대도 변화의 중심에 서게 될 것으로 예상된다. 

데이터센터가 기업 업무 환경의 핵심 인프라로 성장하고 있는 만큼 사용자와 공급자 모두가 변화를 빠르게 인지하고, 대응해 더 안전하고 쾌적한 시스템을 만드는 데 주력해야 할 것이다.

오동열 한국주니퍼네트웍스 기술본부장 상무(dyoh@juniper.net)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?