'먹통 정상화' 카카오 127시간·네이버 12시간…이중화서 갈렸다

정길준 2022. 12. 6. 16:56
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

과기정통부, 판교 데이터센터 화재 조사 결과 발표
카카오, 타 데이터센터 서비스 이중화 미비
SK C&C·양대 포털에 1개월 내 개선 방안 제출 요구
카카오 서비스에서 동시다발적으로 장애가 발생한 지난 10월 16일 경기 과천의 한 카카오T 주차 사전무인정산기에 시스템 장애를 알리는 안내문이 붙어 있다. 연합뉴스

두 달 전 발생한 대규모 플랫폼 장애의 정상화가 네이버는 반나절 만에 이뤄진 데 반해 카카오는 나흘이 걸렸던 것은 데이터센터 이중화 여부가 주된 원인이었다는 결론이 나왔다.

과학기술정보통신부(이하 과기정통부)는 지난 10월 15일 양대 포털의 일부 서비스가 입주한 SK C&C 판교 데이터센터 화재 및 카카오·네이버 부가서비스 장애에 대한 조사 결과를 발표했다.

그러면서 SK C&C·카카오·네이버 3사에 1개월 내 주요 사고 원인에 대한 개선 조치와 향후 계획 수립을 요구했다.

과기정통부에 따르면 카카오는 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치로 10월 20일 23시께 정상화해 장애 복구에 127시간 33분을 소요했다.

네이버는 일부 기능 오류(일부 기사 댓글 이용 불가 등)가 발생했으며, 주요 서비스·기능 대부분은 약 20분~12시간 내 복구했다.

사고 당일 오후 3시 19분 SK C&C 판교 데이터센터 지하 3층 배터리실에서 불이 났으며 저녁 11시 45분에 완전히 진화했다. 화재 진압과 건물 전력 차단 등 이유로 카카오와 네이버 등 입주 기업 서비스에 장애가 발생했다.

화재 발생 후 가스 소화 장비가 작동했지만, 가스 소화가 어려운 리튬이온 배터리 특성상 초기 진압에 한계가 있었다.

해당 배터리는 일부 무정전 전원장치(UPS)와 물리적으로 완벽하게 분리되지 않은 공간에 있었다. 화재 열기 등으로 UPS가 멈췄고, 일부 전원 공급도 끊겼다.

배터리 상단에 포설한 전력선이 화재로 인해 손상됐고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단했다.

지난 10월 17일 오전 경기도 성남시 분당구 삼평동 SK 주식회사 C&C 데이터센터 화재 현장에서 경찰·국립과학수사연구원·소방당국·전기안전공사 등 유관 기관 관계자들이 합동감식을 위해 들어가고 있다. 연합뉴스

네이버는 데이터센터 간 이중화 조치를 해 서비스 중단은 없었지만, 타 데이터센터로 서비스를 전환하는 과정 등에서 쇼핑 리뷰와 뉴스 댓글 등 일부 기능에서 오류가 나타났다.

이에 반해 카카오는 카카오톡과 다음 등 대부분의 핵심 기능이 판교 데이터센터에 집중돼 있어 즉각 영향을 받았다.

과기정통부는 "일부 서버와 연결망 등 오류에 대비한 재난 대비 훈련 등 조치는 했지만, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난 상황에 대해서는 대비가 부족했다"고 했다.

또 카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(동작)와 기타 센터(대기)로 이중화했지만, 이번 사고 시 대기 시스템이 제대로 동작하지 않았다.

대기 서버를 동작 서버로 바꾸는 권한 관리 기능인 '운영 및 관리 도구'를 판교 데이터센터 내에서만 이중화해 타 데이터센터에서 조치할 수 없었기 때문이다.

과기정통부는 디지털 서비스 안정성 확보를 위한 종합적 개선 방안을 내년 1분기 중으로 수립할 계획이다.

정길준 기자 kjkj@edaily.co.kr

Copyright © 일간스포츠. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?