"네이버 서비스 안정성은 BCP서부터... 끊임없는 훈련·투자·소통이 지름길"

팽동현 2023. 3. 26. 19:52
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

김도현 네이버클라우드 서비스플랫폼 부장
김도현 네이버클라우드 서비스플랫폼 부장. 네이버클라우드 제공

"네이버 서비스의 운영 안정성은 BCP(사업연속성계획)에서 비롯됩니다. 계속 갱신하고 자주 훈련하고 소통하는 것 외에는 지름길이 없습니다."

김도현(사진) 네이버클라우드 서비스플랫폼 부장은 최근 기자와 만나 안정적인 서비스 운영 비결에 대해 이같이 말했다. 네이버클라우드는 네이버의 전체 서비스 인프라와 운영을 지원하는 동시에 외부 고객을 대상으로 클라우드 서비스를 제공한다. 김 부장은 그 중에서도 회원 데이터베이스를 포함한 네이버 핵심 서비스의 운영 안정성을 책임진다.

네이버클라우드는 지진, 대설, 풍수해, 화재, 테러, 전염병, 전쟁, 정전 등 비상상황에도 서비스가 끊기지 않도록 다중 안전장치를 두고 있다. BCP에는 상황별 대응조치 매뉴얼뿐 아니라 직무별 개인행동 요령, 비상연락망, 보고체계, 부서별 액션 아이템까지 상세하게 규정돼 있다.

국내 데이터센터 사고의 대부분을 차지하는 화재·침수 대응은 기본이다. 데이터센터 '각 춘천'의 경우 주변에 산불이 날 경우 열화상 CCTV가 발열을 감지하고 화재 감지 SW(소프트웨어)가 보안관제센터 근무자에게 상황을 실시간으로 전달, 건물 옥상에 설치된 방수총에서 물을 분사해 화재 확산을 막는다. 데이터센터 내 화재에 대비해 진압 및 대피, 인명구조를 위해 춘천소방서와 매년 합동훈련도 한다.

매년 두차례 하는 BCP 모의훈련, 월 1~2회 하는 운영안정성 점검훈련 등 지난 10년간 200회 넘는 모의훈련을 실시해 유사 시 즉각 대응하는 체계를 갖췄다. 지난해 SK C&C 판교 데이터센터 화재 당시 네이버 서비스가 빠르게 정상화돼 그동안의 노력이 헛되지 않았음을 입증했다.

김 부장은 "그날 BTS 공연이 있어서 트래픽을 모니터링하던 중 화재 소식을 들었다. 즉각 모든 담당자가 평소 훈련한 대로 빠른 전환과 정상화 작업을 했다"면서 "돌발상황이 벌어지면 소통하며 해결점을 찾았는데, 개발과 운영조직 간 커뮤니케이션의 중요성을 실감했다"고 말했다.

빠른 안정화는 충분한 인프라 이중화 덕분에 가능했다. 사고 당시 전원이 끊긴 가운데도 기존에 시스템 복구와 서비스 연속성 확보를 위해 갖춰놨던 7단계 서비스 인프라 이중화 체계가 제 역할을 했다.

이 체계는 '영향 받는 기능 범위'와 '서비스 중단 지속시간'을 기준으로 4단계(1~4)의 리커버리 서비스 레벨, 3단계(5~7)의 컨티뉴어스 서비스 레벨로 구분한다. 이를 기준으로 서비스 중요도를 크게 상·중·하로 나눈다. 중요도 '상' 서비스는 해당 서비스뿐 아니라 운영 및 기능수정을 위한 기술도구까지 100% 이중화한다. 그 외 서비스도 복수 데이터센터를 통한 복구체계를 운영한다.

7단계 이중화를 바탕으로 한 운영에는 자체 개발한 플랫폼이 활용된다. 원활한 서비스의 기본인 네트워크 환경은 'N+1 다중화 구조'를 구현했다. 백본 스위치를 포함한 네트워크 인프라를 그물망 구조로 상호 연결, 특정 인프라에 문제가 생기면 곧바로 다른 네트워크로 전환된다. 서버에는 서버 부하의 효율적인 분산을 돕는 CSLB(클라우드스케일로드밸런서)와 함께 SSL 인증 플랫폼 '엔프론트(nFront)'를 자체 개발해 빠른 장애 대응에 활용한다.

김 부장은 "네이버처럼 다양한 서비스를 하면서도 그 전반을 실시간 모니터링해 즉시 필요한 요소를 개발·적용할 수 있는 곳은 국내에 매우 드물 것"이라며 "검색·카페같이 많은 이들이 애용하는 핵심 디지털 서비스는 이중화가 필수적인데 그 중요성을 인식하지 못하는 기업들도 있다"고 했다.

네이버는 두 번째 자체 데이터센터 '각 세종'을 올 2분기 내 준공하고 3분기 중 가동할 예정이다. 이를 통해 네이버 서비스 운영 안정성은 한 단계 더 높아질 전망이다. 김 부장은 "중요도 상을 포함한 네이버의 다양한 서비스용 인프라가 세종에 들어갈 예정"이라며 "다만 이중화 비용 부담이 있는 만큼 정부가 잘하는 사업자에 대한 지원책을 고려해줬으면 한다"고 밝혔다.

팽동현기자 dhp@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?