20여개국에 데이터센터 … 작은 사고도 분 단위로 기록

황순민 기자(smhwang@mk.co.kr) 2023. 11. 6. 16:03
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

벤저민 슬로스 구글 글로벌 인프라 총괄

"기업들이 실패하는 많은 부분은 기본적인 것을 올바르게 수행하지 않아서 발생하죠. 정말 멋지고 새로운 서비스를 만들고 빠르게 성장하고 싶더라도 기본적인 것부터 잘해야 합니다. 이 같은 구글의 철학은 20년이 넘도록 변하지 않았습니다."

최근 매일경제와 영상으로 인터뷰한 벤저민 슬로스 구글 글로벌 인프라 총괄은 구글의 성공 비결을 이렇게 설명했다. 많은 스타트업이 회사와 서비스의 성장 과정에서 고민을 마주하게 된다. 때로는 고객에 대한 약속과 회사의 원칙, 인프라스트럭처에 대한 투자 등이 비용으로 여겨지기도 한다. 하지만 기본에 충실하지 않을 때 결국 회사는 결국 시장에서 신뢰를 잃고 서비스 실패 등 여러 위기에 직면할 가능성이 높다는 것을 역사는 증명한다.

슬로스 총괄은 "많은 사람이 구글의 성공만 보지만 그 이면에는 고객에게 '좋은 서비스'를 제공하겠다는 회사의 원칙이 '바보 같은 결정'을 내리지 않도록 하는 과정이 있었다"고 했다. 구글이 그토록 빠르게 성장하면서도 서비스의 안정을 추구하는 본질을 잃지 않았기에 이처럼 성장할 수 있었다는 의미로 풀이된다.

전 세계 곳곳에서 수많은 서비스를 제공하고 있는 구글의 특징은 서비스의 안정성에 있다. 이 회사는 어떻게 그 많은 서비스를 안정적으로 제공할 수 있었을까.

슬로스 총괄은 그 해답을 가장 잘 아는 인물이다. 그는 현재 구글의 글로벌 서비스 인프라와 위기 대응 프로세스를 총괄하고 있다. 특히 글로벌 인터넷 서비스에서 통용되는 SRE(사이트 안정성 엔지니어링) 개념의 창시자로 업계에서 해당 분야 세계 최고 전문가로 통한다. SRE란 글로벌 인터넷 사업자들이 어떻게 하면 서비스의 안정성 인프라를 구축하고 위기 대응 프로세스를 설계할지 고민하는 기술 분야, 방법론, 문화 등을 의미한다. 그가 창시한 SRE 개념은 구글뿐 아니라 메타(옛 페이스북), 아마존 등 빅테크와 국내에선 네이버 등이 도입했다. 슬로스총괄이 국내 언론과 인터뷰한 것은 이번이 처음이다.

지난해 경기 판교 SK C&C 데이터센터 화재는 국내에서도 데이터센터의 필요성과 안정성을 주목하는 계기가 됐다. 구체적인 내용을 공개하지는 않지만 구글은 전 세계에서 20개가 넘는 자체 데이터센터를 운영 중인 것으로 알려졌다. 특히 인간의 영역 밖인 자연 재해 등 재난 상황을 언제든 일어날 수 있는 일로 간주하고 만반의 대비를 갖추는 것이 인상적이다.

슬로스 총괄은 구글이 보안을 최우선 요소로 두고 데이터센터를 설계하고, 여러 재난 시나리오를 가정한 재해복구 매뉴얼도 갖추고 있다고 강조했다. 실제로 구글 전사 직원들은 재해 시 자사 서비스의 안정적인 운영을 위해 매년 수일간 '재해 복구 테스트(DiRT)'를 진행하고 있다. 의도적으로 장애를 유발해 중요한 시스템의 취약점을 찾아내고, 이를 수정하는 훈련이다. 슬로스 총괄은 "여러분이 수십 개 데이터센터와 수십만 마일의 네트워킹을 가지고 있을 때, 이것은 '재난을 일으킬 것인지'의 문제가 아니라 '얼마나 많은 재난이 일어날 것인지'에 대한 문제가 된다"고 했다. 구글은 자사 모든 상용화된 서비스에 대해 DiRT 테스트 검증을 필수적으로 시행하도록 했다.

구글은 데이터센터 사고와 관련해 자체 사고 보고서를 공유하고 있다. 사고 원인, 경과, 영향 및 재발 방지책을 '분 단위'로 기록해 공개하는 것이다. 회사의 재해 대비 관련 정책을 철저히 대외비로 부치는 국내 분위기와 달리 투명성에 기반해 사고에 대비하고 있는 것이다. 실제로 구글 사고 보고서에는 운영 중단 사례에 대한 지역별 영향, 중단 지속 시간 등 디테일이 담겨 업계의 참고 사례가 되고 있다.

슬로스 총괄과 그의 팀은 구글 서비스뿐 아니라 전 세계의 인터넷을 일년 내내 유지하는 것을 목표로 하고 있다. 구글 데이터센터의 안정성을 보장하는 전담 인력이 한국에 상주하고 있지 않다는 일각의 지적에 대해 그는 "데이터센터에 불이 붙으면 가장 먼저 어떻게 해야 할까, 건물 밖으로 대피해야 한다"면서 "전담 인력이 실제로 데이터센터와 물리적으로 함께 있는 것은 오히려 단점이 된다"고 말했다. 그는 "데이터센터가 여러분에게서 두 블록 떨어져 있든 몇 마일 떨어져 있든 전혀 상관없다. 우리가 하는 일은 모두 컴퓨터에 있기 때문"이라고 부연했다.

[황순민 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?