'먹통 정상화' 카카오 127시간·네이버 12시간…이중화서 갈렸다
카카오, 타 데이터센터 서비스 이중화 미비
SK C&C·양대 포털에 1개월 내 개선 방안 제출 요구
두 달 전 발생한 대규모 플랫폼 장애의 정상화가 네이버는 반나절 만에 이뤄진 데 반해 카카오는 나흘이 걸렸던 것은 데이터센터 이중화 여부가 주된 원인이었다는 결론이 나왔다.
과학기술정보통신부(이하 과기정통부)는 지난 10월 15일 양대 포털의 일부 서비스가 입주한 SK C&C 판교 데이터센터 화재 및 카카오·네이버 부가서비스 장애에 대한 조사 결과를 발표했다.
그러면서 SK C&C·카카오·네이버 3사에 1개월 내 주요 사고 원인에 대한 개선 조치와 향후 계획 수립을 요구했다.
과기정통부에 따르면 카카오는 주요 서비스의 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치로 10월 20일 23시께 정상화해 장애 복구에 127시간 33분을 소요했다.
네이버는 일부 기능 오류(일부 기사 댓글 이용 불가 등)가 발생했으며, 주요 서비스·기능 대부분은 약 20분~12시간 내 복구했다.
사고 당일 오후 3시 19분 SK C&C 판교 데이터센터 지하 3층 배터리실에서 불이 났으며 저녁 11시 45분에 완전히 진화했다. 화재 진압과 건물 전력 차단 등 이유로 카카오와 네이버 등 입주 기업 서비스에 장애가 발생했다.
화재 발생 후 가스 소화 장비가 작동했지만, 가스 소화가 어려운 리튬이온 배터리 특성상 초기 진압에 한계가 있었다.
해당 배터리는 일부 무정전 전원장치(UPS)와 물리적으로 완벽하게 분리되지 않은 공간에 있었다. 화재 열기 등으로 UPS가 멈췄고, 일부 전원 공급도 끊겼다.
배터리 상단에 포설한 전력선이 화재로 인해 손상됐고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단했다.
네이버는 데이터센터 간 이중화 조치를 해 서비스 중단은 없었지만, 타 데이터센터로 서비스를 전환하는 과정 등에서 쇼핑 리뷰와 뉴스 댓글 등 일부 기능에서 오류가 나타났다.
이에 반해 카카오는 카카오톡과 다음 등 대부분의 핵심 기능이 판교 데이터센터에 집중돼 있어 즉각 영향을 받았다.
과기정통부는 "일부 서버와 연결망 등 오류에 대비한 재난 대비 훈련 등 조치는 했지만, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난 상황에 대해서는 대비가 부족했다"고 했다.
또 카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(동작)와 기타 센터(대기)로 이중화했지만, 이번 사고 시 대기 시스템이 제대로 동작하지 않았다.
대기 서버를 동작 서버로 바꾸는 권한 관리 기능인 '운영 및 관리 도구'를 판교 데이터센터 내에서만 이중화해 타 데이터센터에서 조치할 수 없었기 때문이다.
과기정통부는 디지털 서비스 안정성 확보를 위한 종합적 개선 방안을 내년 1분기 중으로 수립할 계획이다.
정길준 기자 kjkj@edaily.co.kr
Copyright © 일간스포츠. 무단전재 및 재배포 금지.
- 이승기, 새벽에도 권진영 대표에게 불려나가 가라오케서 노래? 갑질 의혹 추가돼
- 히샤를리송 “쏘니, 넌 영웅이야… 얼마나 열심히 싸웠는지 알아”
- '모태범♥' 임사랑, '커튼콜' 하지원 응대하는 호텔 직원이었네...배우 복귀 성공!
- “부끄러움 모르고 키보드로...” 황인범, 안티 팬 향해 목소리 높였다
- 이다해, 확 달라진 미모 근황...팽팽한 피부+11자 각선미, 놀라워
- 산다라박, 미국서 과감해진 패션? 브라톱+복근 노출한 파격 스타일
- AOA 탈퇴 지민, 확 달라진 얼굴 '충격'...C사 명품 올려놓고 행복한 근황
- [화보] 장윤주, 청량함의 인간화!
- 쌍둥이 아들 잃은 호날두 "부모가 느낄 수 있는 가장 큰 고통"
- 타율 0.037…'양'의 침묵