KT 통신장애, 명령어 실수 30초 만에 부산→서울→전국 확산

김윤수 기자 2021. 10. 29. 15:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

과기부, 전문가 합동 조사 결과 발표
명령어 'exit' 누락해 라우터(경로 설정) 오류
"야간 작업을 주간에, 본사 관리자 없이 협력사만 수행"
"오류 확산 막을 안전장치·사전검증 절차 없었다"
"디도스 공격은 확인 안 돼"
서울 종로구 KT 광화문 사옥 모습. /연합뉴스

지난 25일 발생한 KT(030200) 유·무선 네트워크 장애(통신장애)는 당시 작업자의 잘못된 명령어 입력 30초 만에 전국으로 퍼졌던 것으로 조사됐다.

과학기술정보통신부는 정보보호·네트워크 전문가들로 구성된 사고조사반과 함께 KT 통신장애의 원인을 분석한 결과를 29일 발표했다.

조사 결과에 따르면 이번 사고는 지난 25일 오전 11시 16분쯤 KT 부산국사에서 시작돼 KT의 복구 조치가 완료된 낮 12시 45분까지 약 89분 동안 전국적인 통신 서비스 장애를 발생시켰다.

지난 25일 오전 11시 16분쯤 KT 협력업체 직원이 부산에서 기업망 라우터(네트워크 경로 설정 장치)를 교체하던 중 이 라우터에 입력해야 하는 명령어 가운데 하나인 ‘exit’를 누락한 게 원인이 된 것으로 나타났다. 잘못된 명령어가 입력된 라우터는 잘못된 데이터를 인근 라우터들에 전달했다. 부산에서 곧바로 서울로, 다시 전국으로 오류가 전파되는 데 걸린 시간은 30초 이내였다.

◇ 명령어 실수로 KT 내부망에 외부 정보 대거 침입

PC·스마트폰 등 네트워크 단말기는 2대가 서로 직접 연결해 인터넷 통신이 가능하다. 하지만 단말기 수가 많아질 경우 모든 단말기가 서로 일대일로 직접 연결하는 게 어려워진다. 단말기들은 대신 중개장치인 라우터에만 연결되고 라우터를 통해 간접적으로 정보를 주고받는다.

라우터와 단말기의 연결(왼쪽), 라우터와 라우터의 연결(오른쪽)을 표현한 그림. /과기부 제공

라우터 역시 다수가 필요하고, 라우터들끼리는 특정 데이터를 수신자에게 전달하는 최적의 경로를 파악하기 위해 서로 ‘경로 정보’를 주고받는 ‘정보 교환’을 수행한다. 정보 교환은 KT 내부 라우터끼리 이뤄질수도, KT 내부와 외부 라우터 사이에 이뤄질 수도 있다.

라우터는 이 두 가지 정보 교환을 구분해 수행한다. 내부 라우터끼리 주고받는 경로 정보는 1만개뿐이지만 외부 라우터와 주고받는 경로 정보는 수십만개가 되기 때문에, 둘을 구분하지 않으면 외부 라우터로부터 들어오는 다량의 경로 정보가 내부 라우터 간 정보 교환과 데이터 전달 경로 최적화를 방해할 수 있다.

이번 사고는 이런 ‘정보 교환 방해’로 인해 벌어졌다. KT 협력업체 직원은 라우터를 새로 교체하고 이 라우터에 KT 내부 라우터끼리만 정보 교환을 하라는 명령어들(프로토콜)을 입력했는데, 명령을 마무리하는 마지막 명령어인 ‘exit’를 누락했다. 그 결과 해당 라우터는 의도치 않게 외부 라우터로부터 다량의 경로 정보를 받아들였고, 이를 소량의 KT 내부 경로 정보만 받아들이던 다른 라우터들에도 그대로 전달하면서 오류가 발생했다.

부산의 한 지역 라우터에서 시작된 오류는 연결망의 중간 중추를 담당하는 부산 ‘백본 라우터’를 거쳐 전국의 중추인 서울 ‘센터 라우터’로 퍼진 뒤, 중추에서 다시 전국 각 지역의 말단 라우터들로 확산됐다.

라우터에 잘못된 명령어가 입력돼 지역 라우터, 센터 라우터로 오류를 전파하는 모습을 표현한 그림. /과기부 제공

◇ “KT, 관리 미흡했고 기술적 안전장치도 없었다”

당초 KT가 라우터 교체 작업을 야간에 하기로 계획했지만 실제로는 주간에 이뤄졌고, KT 본사의 작업 관리자 없이 협력사 직원들만 현장에 나가 수행했던 것으로 조사됐다. KT 관리자와 협력사 직원들이 합의 하에 주간 작업을 결정했고, 관리자는 “다른 업무가 있었다”는 이유로 자리를 비웠다고 답한 것으로 조사됐다. 과기부는 KT의 작업관리체계가 부실했다고 결론내렸다.

과기부는 또 기술적인 문제도 있었다고 했다. 작업자의 단순 실수로 인해 전국적인 피해가 벌어질 동안, KT는 아무런 사전검증을 거치지 않았고, 지역에서 발생한 오류가 전국으로 확산되는 걸 차단할 시스템도 없었다는 것이다.

이번 사고는 인터넷 통신에만 영향을 미쳤지만, 통신장애 발생 후 이용자들의 전화와 문자(SMS) 이용량이 갑자기 늘어 트래픽 과부하가 걸렸고 단말기 전원을 재부팅해 이를 가중시켰던 것으로 조사됐다.

과기부는 KT를 포함한 주요통신사업자의 네트워크 작업과 관리 체계를 점검하기로 했다. 네트워크 작업으로 인한 오류 여부를 사전에 전달할 수 있는 가상의 시뮬레이션 시스템, 야간에 하기로 한 작업을 주간에 한 것처럼 계획과 달리 작업이 이뤄지는 걸 감시하는 네트워크관제 체계를 마련하겠다는 계획이다.

KT는 사고 직후 자사 홈페이지를 통해서만 통신장애 사실을 알렸다. 정부는 이것이 현행 법에 어긋나지는 않지만 문자 메시지 등 사람들의 접근성이 더 높은 수단으로도 고지할 수 있도록 제도를 개선하겠다고 했다.

이용자들에 대한 피해 보상 방안 역시 KT, 방송통신위원회와 협의해 마련하겠다고 했다. KT에 대한 손해배상에 대해선 “손해배상은 기본적으로 당사자(KT와 이용자) 간 계약에 따라 이뤄지는 게 맞다고 본다”라면서도 “제도 보완을 하겠다”라고 답했다.

과기부는 KT가 당초 원인으로 추정한 디도스 공격은 확인되지 않았다고 덧붙였다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?