KT 통신장애, 명령어 누락으로 전국망 마비..관리 부실 문제 키웠다

김나인 2021. 10. 29. 15:34
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구현모 KT 대표가 28일 서울 종로구 KT혜화타워(혜화전화국) 앞에서 지난 25일 발생한 KT의 유·무선 인터넷 장애와 관련해 취재진 질문에 답하고 있다. 연합뉴스

지난 25일 오전 전국적으로 발생한 KT 네트워크 장애는 부산국사에서 기업 망 라우터 교체 작업 중 작업자가 잘못된 설정 명령을 입력했고, 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 나타났다.

작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실한 것으로 나타났으며, 네트워크가 연결된 채로 작업이 이뤄져 KT의 관리·감독 문제도 확인됐다.

과학기술정보통신부는 이와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반(이하 조사반)과 함께 원인을 조사·분석한 결과를 통해 이 같이 밝혔다.

조사 결과 KT 네트워크 장애사고는 25일 11시 16분경부터 시작돼 DNS 트래픽 증가에 이어 네트워크 장애가 발생했고, 12시 45분경 KT의 복구조치가 완료돼 약 89분의 서비스 장애가 발생했다.

이번 사고 로그기록을 분석한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 'exit' 명령어를 누락된 것으로 확인됐다. 이로 인해, BGP(보더 게이트웨이 프로토콜)에서 교환해야 할 경로정보가 내부 게이트웨이에 쓰이는 IS-IS 프로토콜로 전송됐다.

라우터는 최신 경로정보를 라우터끼리 교환하기 위해 프로토콜을 사용하는데, KT와 외부 네트워크 경로 구성에는 BGP를 사용하고 KT 내부 경로 구성에는 IS-IS 프로토콜을 쓴다.

통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 발생하게 됐다는 설명이다. 이러한 라우팅 경로에 발생한 오류는 전국적으로 확산된 것으로 분석됐다.

IS-IS 프로토콜 내의 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달됐다.

KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고, 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대됐다고 과기정통부는 설명했다. 전체 라우터에 오류가 전파되기까지 걸린 시간은 30초 이내였다.

아울러 관리상의 문제도 나타났다. 당초 KT 네트워크관제센터가 야간작업을 승인했지만, 작업이 주간에 수행되는 과정에서 장애가 발생하게 된 것으로 확인했다. 또 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이뤄졌다. 사전검증 단계에서도 오류를 파악하지 못하는 등 시스템 부재 문제도 있었다.

애초 원인으로 지목됐던 디도스(DDoS) 공격 문제도 없는 것으로 확인됐다. 과기정통부는 통상 DDoS 공격 시 개별 IP에서 수백, 수천 개의 질의가 발생하는데 다량의 도메인 질의는 없었으며, 네트워크 대역폭 공격과 관련해서도 시스템 자원 DDoS 공격 및 네트워크 대역폭 공격은 확인되지 않았다.

과기정통부는 이번 조사결과를 바탕으로 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다. 주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고, 주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다.

중장기적으로는 주요통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등도 추진할 예정이다.

아울러 이용자들의 피해보상을 위해 KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검할 예정이다.김나인기자 silkni@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?