탈통신 마음 급했나..KT, 단순 명령어 누락 탓 '통신대란'
현장 관리감독 매우 부실
과기부 "재발방지책 마련"
지난 25일 점심시간을 전후해 전국적으로 89분간 인터넷이 끊겼던 KT 유·무선 인터넷 장애는 KT 협력업체 직원이 'exit'(종료)라는 명령어 한 단어를 제대로 쓰지 않는 바람에 발생한 것으로 드러났다.
작업자의 사소한 실수로 전국 인터넷망이 한순간에 멈춰설 수 있음을 여실히 드러낸 것이다. 과학기술정보통신부는 재발 방지를 위해 통신작업 절차를 보다 명확히 하고, 사전에 명령어 오류를 잡아낼 수 있는 시뮬레이션 시스템을 구축하겠다고 답했다.
과기정통부는 지난 25일 오전 11시 16분부터 약 89분간 전국에서 발생한 KT 유·무선 인터넷 장애는 부산에서 기업용 라우터 프로토콜을 새로 설치하는 과정에서 발생했다고 29일 발표했다. 라우터는 한마디로 인터넷 데이터 전달장치다. 라우터 프로토콜은 여러 개 라우터의 경로정보를 교환하는 역할을 한다. 작업자가 부산 기업용 라우터 프로토콜 명령어를 마무리하는 과정에서 'exit' 명령어를 입력해야 했는데 이 부분을 누락했고, 이 때문에 발생한 오류는 불과 30초 만에 전국으로 퍼지면서 유·무선 인터넷 장애가 생겼다.
기술적인 부분뿐만 아니라 관리감독 차원에서도 문제점이 드러났다. 당초 KT 네트워크관제센터가 야간작업(오전 1~6시)을 승인했지만, 이를 어기고 작업이 주간에 수행됐다. 작업관리자 없이 KT 협력업체 직원인 작업자끼리만 라우팅 작업을 수행한 것도 문제로 지적된다.
종합하자면, 'exit' 명령어를 제대로 입력하지 않은 것을 사전에 몰랐다는 점이 1차 원인이었고, 부산에서 발생한 오류가 한 번에 아무런 제동장치 없이 전국으로 퍼진 게 2차 원인이다. 아울러 절차에 맞춰 제대로 작업이 이뤄지지 않고 현장 관리감독도 없었다는 점이 3차 원인으로 지목된다. 한마디로 종합적 '인재(人災)'라는 이야기다.
과기정통부는 재발 방지 대책을 제시했다. 방안의 골자는 두 가지다. 기술적인 부분에서 1·2차 원인을 방지하기 위한 장치를 마련한다. 우선 네트워크 작업으로 인한 오류 여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 이동통신 3사에 도입한다. 이통 3사가 라우팅 작업을 할 때 한 번에 업데이트하는 경로정보 개수도 일정 수준 이하로 제한할 예정이다. 오류가 한 번에 전국으로 퍼져나가는 것을 방지하기 위해서다.
마지막으로 관리감독 부분도 강화한다. 작업계획서의 내용과 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축할 예정이다. 조경식 과기정통부 2차관은 "이번 조사 결과를 바탕으로, 주요 통신사업자 네트워크의 생존성·기술적·구조적 대책이 담긴 안정성 확보 방안을 마련할 계획"이라고 밝혔다.
[나현준 기자]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지