[디지털 재난대응] "카카오, 대기 시스템 제대로 작동하지 않아"

김준혁 2022. 12. 6. 14:25
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

카카오는 SK C&C 판교 데이터센터 화재 발생 후, 서비스 장애를 방지하기 위한 대기(Standby) 시스템이 제대로 작동하지 않았다.

즉 다른 데이터센터에 해당 기능이 이중화돼 있지 않아 판교 데이터센터 화재 이후 서비스 장애 복구가 지연된 것으로 파악됐다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

과기정통부 ‘디지털서비스 장애 조사결과 발표 및 시정 요구’
이종호 과학기술정보통신부 장관이 6일 정부 서울청사에서 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 사고 조사·분석 결과를 발표하고 있다. 사진=김준혁 기자

[파이낸셜뉴스] 카카오는 SK C&C 판교 데이터센터 화재 발생 후, 서비스 장애를 방지하기 위한 대기(Standby) 시스템이 제대로 작동하지 않았다. 아울러 다른 데이터센터와 이중화 작업이 돼 있지 않았던 것으로 확인됐다.

과학기술정보통신부(과기정통부)는 6일 정부 서울청사에서 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 사고 조사·분석 결과를 발표했다.

조사 결과에 따르면 카카오는 서비스 기능을 △애플리케이션(앱) △서비스 플랫폼 △운영 및 관리도구 △데이터베이스 △인프라 설비 레이어 등 5개 레이어로 구분, 판교 데이터센터와 기타 다른 데이센터 간 동작(Active)-대기(Standby) 체계로 이중화했다.

하지만 이번 사고에서는 대기 시스템이 제대로 작동하지 않은 것으로 파악됐다. 대기 체계는 동작 서버 작동이 되지 않을 시 대기 중인 서버를 가동해 서비스를 제공하는 방식이다.

카카오는 대기 서버를 동작 상태로 만들기 위한 권한관리 기능인 '운영 및 관리 도구'를 판교 데이터센터 내에만 이중화했던 것으로 조사됐다. 즉 다른 데이터센터에 해당 기능이 이중화돼 있지 않아 판교 데이터센터 화재 이후 서비스 장애 복구가 지연된 것으로 파악됐다.

아울러 카카오톡과 다음(Daum) 등 카카오 서비스 대부분의 핵심 기능이 판교 데이터센터에 집중돼 있어 화재 발생 후 대부분의 카카오 서비스가 직접적인 영향을 받았다. 또 여러 서비스 구동 초기단계부터 필요한 '카카오인증' 등 핵심기능도 판교 데이터센터에 집중돼 있었다.

이종호 과기정통부 장관은 "카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하고 있으나, 각 단계별 체계화 및 자동화가 미흡했다"며 "일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했지만, 1개 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해선 대비가 부족했다"고 전했다.

한편 네이버는 데이터센터 간 이중화 조치를 통해 서비스 중단은 없었던 것으로 조사됐다. 다만 서비스를 다른 데이터센터로 전환하는 과정에서 쇼핑, 뉴스, 파파고 등 일부 기능에 오류가 발생했다. 주요 서비스 기능 대부분은 약 20분~12시간 내 정상화됐다.
#과기정통부 #데이터센터 #이중화

Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?