과기정통부, 카카오에 ‘먹통 방지책’ 요구…화재원인은 오리무중(종합)

민단비 2022. 12. 6. 17:42
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

SK C&C에 다양한 화재감지 시스템 및 리튬이온배터리 화재 대비 소화설비 구축 요구
카카오에는 ‘매우 수준 높은’ 서버 이중화 요구…무료 서비스 보상 계획 수립도 주문
이종호 장관 “3사 조치 및 계획, 전문가 의견 등 반영해 내년 1분기 종합 개선방안 수립”
이종호 과학기술정보통신부 장관이 6일 서울 종로구 정부서울청사에서 열린 브리핑 자리에서 SK C&C 데이터센터 화재와 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 있다.ⓒ데일리안 홍금표 기자

정부가 ‘카카오 먹통’ 사태에 대한 조사 결과를 발표했다. 조사 결과 카카오 먹통 사태의 주요 원인은 ‘화재에 취약한 데이터센터 구조’와 ‘카카오의 서버 이중화 미흡’으로 기존에 공개된 내용과 크게 다르지 않았다.


정부는 이번 조사 결과에 기반한 개선사항을 마련하고 SK C&C·카카오·네이버 3사에 이행을 요구했다. 또 한달 내로 이행 결과와 함께 향후 계획을 수립해 제출하도록 했다.


이종호 과학기술정보통신부 장관은 6일 서울 종로구 정부서울청사 브리핑룸에서 SK C&C 데이터센터 화재와 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표했다.


조사 결과에 따르면 지난 10월 15일 오후 3시 19분 SK C&C 판교 데이터센터 지하 3층 배터리실에 화재가 발생해 같은 날 오후 11시 45분에 완전히 진화됐으며 화재 진압, 건물 전력 차단 등을 이유로 카카오, 네이버 등 입주 기업 서비스에 장애가 발생했다.


SK C&C 판교 데이터센터의 경우 배터리 온도 등을 모니터링하는 시스템인 BMS를 갖추고 있었으나 화재 발생 직전까지 화재에 대한 이상징후가 나타나지 않았던 것으로 밝혀졌다. 화재 발생 이후에는 가스 소화 장비가 작동했지만 가스 소화가 어려운 리튬이온 배터리 화재 특성 상 초기 진압에 한계가 있었다고 설명했다. 리튬이온 배터리는 살수를 통해 진압할 수 있다는 것이 소방 전문가들의 대체적인 의견이다.


이종호 장관은 이날 “화재가 나기 전까지 온도가 정상 온도였던 걸 보면 온도 센서 하나만으로는 (화재 진압을 하기에) 부족해 보인다”며 “화재를 일찍 파악할 수 있는 다양한 방법들을 강구해야 하며 이는 향후 대책 마련에 포함될 것으로 예상된다”고 말했다.


리튬이온 배터리는 일부 무정전 전원 장치(UPS)와 물리적으로 완벽히 분리되지 않은 공간에 배치돼 있어 리튬이온 배터리에서 발생한 화재 열기 등으로 UPS 작동이 중지되면서 일부 전원공급이 중단된 것으로 파악됐다.


또 전력선이 포설된 전기설비가 배터리실 위에 위치해 있어 화재로 인해 전력선이 손상됐고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려가 있어 전체 전력을 차단했던 것이라고 설명했다. 각 UPS 그룹이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계가 갖춰져 있었으나, 화재 등으로 특정 공간의 UPS에 동시 장애가 발생하면 그 US들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조였다고 덧붙였다.


이번 조사 결과가 기존에 공개된 내용과 다르지 않다는 의견에 이종호 장관은 “화재발생 원인은 소방청 또는 관련 부처에서 정밀조사를 하고 있는 상황으로 결과가 나오는 대로 알려드리겠다”면서도 “과기정통부에선 화재원인에 대한 세부적인 조사보다는 이런 일이 재발하지 않도록 어떻게 대응해야 하는지 대한 관점으로 (사안을) 보고 있다”고 설명했다.


카카오는 기존에 공개된 내용과 같이 서버 이중화에 미흡했던 것으로 조사됐다. 카카오는 서비스 5개 레이어로 구분하고 판교 데이터센터와 기타 센터 간 동작(Active)-대기(Standby) 체계로 이중화 했지만, 이번 사고에서는 대기 시스템이 제대로 동작하지 못했다. 대기 서버를 활성화하기 위한 '운영 및 관리도구'가 판교 데이터센터 내에서만 이중화돼 서비스 장애 복구가 지연된 것이다.


또 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화돼 있지 않아 복구에 많은 시간이 걸린 것으로 나타났다.


아울러 카카오톡, 다음, 카카오인증 등 카카오 서비스 핵심 기능을 판교 데이터센터에 몰아넣어 사태를 더욱 키운 점도 지적했다.


조사 결과를 발표한 과기정통부는 SK C&C·카카오·네이버 3사에 이번 사태의 원인에 기반한 개선 조치와 향후 계획 수립을 요구했다. 이와 관련한 보고는 한달 내에 이행하라며 마감시한까지 정해뒀다. 1개월 후 3사가 제출한 조치결과 및 향후 조치 계획과 전문가·사업자 의견, 법·제도 개선사항을 반영해 종합적 개선방안을 내년 1분기 중으로 수립한다는 방침이다.


SK C&C 측에는 ▲데이터센터 화재 예방·탐지 ▲데이터센터 전력공급 생존성 확보 등을 요구했다.


데이터센터 화재 예방·탐지를 위해서는 BMS 외 다양한 화재감지 시스템 구축 방안을 수립하고, 리튬이온 배터리 화재 시 필요한 소화설비 등을 구축하거나 이것이 불가능할 경우 대안을 마련토록 했다.


지속적인 데이터센터 전력공급을 위해서는 배터리와 기타 전기설비 간 물리적 공간을 분리하고, 배터리실 내 위치한 전력선을 재배치해 구조적 안정성을 확보하도록 했다. 또한 화재 등 재난 발생 구역의 전력을 개별 차단할 방안을 마련하고 재난 현장에 직접 진입하지 않고도 해당 구역 전력을 차단할 수 있는 조치를 마련하도록 했다.


카카오에는 ▲서비스 다중화 ▲재난대비 훈련 조치 ▲서비스 장애 시 이용자 고지 및 피해 구제 체계 구축 등을 요구했다.


이번 서비스 장애 복구 지연 핵심 원인인 ‘운영 및 관리도구’를 여러 데이터센터로 다중화하고, 서비스 핵심 기능에 대해선 우선순위를 고려해 현재보다 높은 수준의 분산 및 다중화를 적용할 수 있는 방안을 수립하도록 했다.


또 데이터센터 전소, 네트워크 마비 등 최악의 상황을 가정한 훈련 계획을 수립·시행하고 보고하도록 요구했다. 장애 탐지-전파-복구 등 전 단계 복구 체계를 재점검해 자동화 기능을 도입하는 등 개선방안도 수립하도록 했다.


정부는 또 카카오에 이번 장애에 따른 국민 피해를 구제할 원칙과 기준을 설정하고, 유·무료 서비스를 포함한 보상 계획을 수립하라고 주문했다.


판교 데이터센터 화재에도 서비스 오류가 적었던 네이버에는 장애 시나리오별 복구 방안 재점검, 데이터센터 전소 상황 모의 훈련 등을 요구했다.


과기정통부는 이러한 요구사항은 의무가 아니지만 관련 사업자들이 성실히 이행해줄 것이라 기대했다. 이종호 장관은 “이 같은 행정지도는 강제력은 없지만 이번 사건은 워낙 큰 피해를 초래한 전례 없는 사고임을 사업자들이 충분히 인지하고 있고 국민적 관심사가 높은 사안인 점에서 사업자 측에서 성실하게 답변해주지 않을까 생각한다”고 말했다.


내년 1분기 중 발표 예정인 종합적 개선방안에 대해서는 “1개월 내로 여러 조치의 결과나 중장기적인 계획을 (사업자들로부터) 받고 전문가, 업계, 관계부처들과 재발방지 방안에 대해 논의한 내용을 종합적으로 정책 방안에 담을 것”이라며 “내년 1분기 중 가능한 한 빨리 발표할 수 있도록 할 예정”이라고 밝혔다.

Copyright © 데일리안. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?