89분 KT 통신장애..원인은 "관리체계 부실·기술문제"

차민영 2021. 10. 29. 15:00
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

과기정통부, 29일 긴급 브리핑
KT 네트워크 장애 조사결과 발표
전형적 인재.."디도스 공격은 없어"

[아시아경제 차민영 기자] 지난 25일 KT 유·무선 통신 장애가 전형적인 인재(人災)인 것으로 정부 조사 결과 판명됐다. 작업계획서를 지키지 않은 담당 작업자 개인의 일탈은 물론 KT의 작업 관리체계 부실과 망 차단 미실시 등 시스템적 요인이 복합적으로 맞물려 사고를 키웠다는 설명이다.

89분 장애 원인 조사 발표

조경식 과학기술정보통신부 제2차관은 29일 오후 3시 정부서울청사에서 열린 긴급 브리핑에서 이 같은 내용을 포함한 KT 네트워크 장애 사고 관련 조사·분석 결과를 발표했다.

이번 KT 네트워크 장애사고는 25일 오전 11시 16분경부터 시작돼 DNS 트래픽 증가에 이어 네트워크 장애가 발생했다. 이어 12시 45분경 KT의 복구조치가 완료돼 약 89분의 서비스 장애가 발생했다.

과기정통부는 사고 로그기록을 분석한 결과, KT 부산국사에서 기업 망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령을 입력했고 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다고 밝혔다.

사고 발생의 직접적 원인은 라우팅 오류다. 작업자는 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했다. 이로 인해 BGP 프로토콜(Boarder Gateway Protocol)에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다. 통상 1만개 내외 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 생겼다.

인터넷망이 아닌 IPTV 서비스망과 음성전화?문자 서비스망은 인터넷 서비스 망과 별도로 구성돼 있으나 트래픽 가중에 영향을 받은 것으로 조사됐다. 단말전원을 리셋한 이용자로 인한 트래픽 증가가 발생해 부하가 가중된 것으로 추정됐다.

KT 감독 부재 속 협력사 깜깜이 작업

KT 관리상 문제점도 적나라하게 드러났다. KT 감독자와 협력업체 작업자로부터 확인한 결과, KT 네트워크관제센터는 10월 26일 새벽 1~6시 야간작업을 승인했으나 협력업체 직원들은 주간에 작업을 수행했다.

KT 협력업체 직원인 작업자들은 작업 관리자 없이 라우팅 작업을 수행했다. 작업 오류를 방지하기 위한 작업관리체계가 부실했던 셈이다. 또한 네트워크가 연결된 채로 작업이 이뤄지면서 실시간으로 네트워크망 장애가 발생하게 됐다.

기술적 문제도 지적됐다. KT는 사전검증 단계에서 오류를 파악하지 못했다. 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 exit 명령어가 누락됐지만, 스크립트 작성 과정과 사전 검증 과정에서 이를 걸러내지 못했다. 1,2차에 걸친 사전검증 단계가 존재했으나 사람이 직접 검토하는 체계로 오류를 발견하지 못했다.

이용자 피해보상 방안 마련

과기정통부는 KT와 협력해 이용자 피해 보상 방안도 마련한다. KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검한다. 방통위는 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.

과기정통부는 이번 사고를 계기로 주요 통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다. 네트워크정책실장을 단장으로 네트워크 전문가 등이 모인 태스크포스(TF)를 꾸린다.

단기적으로는 주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고, 주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다. 주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축토록 하고, 라우팅 설정오류로 인한 피해를 최소화하기 위해, 주요통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한 등이 검토될 계획이다.

중장기적으로는 주요 통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등도 추진할 예정이다.

차민영 기자 blooming@asiae.co.kr

Copyright © 아시아경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?