'EXIT' 단어 하나가 전국 마비시켰다? KT 먹통 90분의 전말

변희원 기자 2021. 10. 30. 16:16
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

지난 25일 오전 11시20분 쯤, 기업이나 관공서가 가장 바쁠 월요일 오전에 유무선 인터넷이 전국적으로 먹통이 됐다. 주식 거래, 학교 온라인 수업, 병원 진찰까지 멈췄다는 민원도 쏟아져나왔다. 인터넷 대란 사태는 점심까지 이어져 식당의 결제는 물론 배달 플랫폼 주문·결제까지 할 수가 없었다. 코로나 사태를 거치면서 지난해와 올들어 비대면 거래가 폭발적으로 늘어나는 바람에 피해는 곳곳에서 터져나왔다. 서울 광화문의 한 식당 주인은 “카드 단말기가 작동을 안한다고 신고하려는데, 휴대전화와 인터넷 전화가 걸리지 않아 결국 손놓고 있었다”고 했다. 오전 11시16분부터 낮 12시45분까지, 약 한시간 반 동안 KT의 유무선 인터넷 장애로 전국이 마비됐다.

사태의 원인은 ‘exit’라는 단어 하나에서 비롯됐다. 지난 29일 오후 과학기술정보통신부가 정보보호·네트워크 전문가로 구성된 사고조사반과 함께 조사한 사고 발생 경위를 발표했다. KT 부산지사에서 시설 교체를 하면서 설정 명령어를 입력하면서 작업자가 ‘exit’이란 단어 하나를 누락해 전국 인터넷망이 다운됐다는, 믿기 어려운 황당한 결과가 나왔다. ‘exit’이란 단어 하나가 어떻게 전국의 유무선 인터넷을 마비시킬 수 있는지 과기정통부의 발표에 근거에 정리해봤다.

25일 오전 KT 인터넷망이 전국적으로 한 시간 넘게 장애를 일으키면서 전남 구례군 마산면 한 식당 입구에 '전산망 오류로 인해 카드 결제 불가' 안내문이 붙어 있다. /연합뉴스

①exit이 대체 무슨 잘못을 했길래...

사고가 일어났을 당시 KT부산지사에서 기업용 라우터를 신형으로 교체하는 작업이 이뤄졌다. 라우터는 기지국에서 보내는 데이터를 받아서 수신자에게 전달해주는 중간 연결 장치이고, 라우팅은 이 장치를 통해 최적의 데이터 이동 경로를 설정하는 것이다. 라우터끼리는 최신의 경로정보를 교환하는 프로토콜을 사용하는데, KT의 경우 KT네트워크와 외부 네트워크와의 경로 구성에는 BGP프로토콜을, KT네트워크 내부 경로 구성에는 IS-IS프로토콜을 사용한다. 라우터는 BGP와 IS-IS프로토콜을 통해 교환한 정보를 종합해서 최종 경로를 설정한다.

이날 사고가 발생한 라우터에 IS-IS프로토콜 명령어를 입력하는 과정에서 작업자는 프로토콜을 종료하는 명령어 ‘exit’을 쳐야했다. 이걸 빠뜨리는 바람에 BGP프로토콜과 연결이 됐고, BGP프로토콜에서 교환해야 할 경로 정보가 IS-IS프로토콜로 몰렸다. 통상 1만개 내외 정보를 교환하는 IS-IS프로토콜에 수십만개의 BGP프로토콜의 정보가 모이면서 경로 설정에 오류가 생겼다.

과기정통부의 발표에 따르면 IS-IS프로토콜 명령어를 완성한 다음 1,2차에 걸린 검증 과정이 있었지만 당시 아무도 ‘exit’을 빠뜨린 오류를 잡아내지 못했다.

②부산에서 사고가 발생했다던데 왜 전국에?

부산에 있는 라우터의 IS-IS프로토콜에 입력된 오류가 전국에 연쇄적으로 영향을 주는 과정은 간단하다.

KT 네트워크에 있는 라우터들을 이어주는 IS-IS프로토콜은 안전장치 없이 전국을 모두 하나로 연결하고 있다. IS-IS 프로토콜로 이어진 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는다. KT 부산 지사 라우터에 잘못된 라우팅 경로가 설정되면, 서울이나 대전 등 전국 지사의 KT 라우터에도 잘못된 업데이트 정보가 전달되는 식이다. 이번 사태에서 부산에서 서울로, 다시 전국으로 오류가 전달되는 데는 30초가 안걸렸다.

25일 오전 한때 KT의 '설정 오류에 따른 장애'로 유·무선 인터넷 서비스가 중단됐다. 네트워크 접속 장애는 1시간가량 만에 복구됐지만, 서비스 중단이 점심시간과 겹치면서 전국 곳곳에서 피해사례가 잇따랐다. 사진은 이날 오후 서울 종로구 KT 광화문 사옥 모습./연합뉴스

③왜 월요일 오전에 작업을 했을까?

① 번은 실수, ②번은 시스템이나 기술의 맹점이라면 ③번은 그야말로 전형적인 인재에 해당한다.

통상 통신사에서 설비교체나 업데이트는 사고, 장애를 대비해서 통신량이 적은 새벽에 작업을 하는 것으로 알려졌다. 원래 이 작업도 KT는 설비 교체를 하는 협력사에게 26일 새벽 1시부터 6시까지 작업을 하도록 승인을 했다. 과기정통부의 조사에 따르면 야간에 하기로 한 작업을 KT관리자와 협력사 작업자들이 주간에 하기로 합의를 하고, 당초 승인 받은 시간보다 앞서 월요일 오전에 작업을 했다. 왜 작업 시간을 임의로 옮겼냐는 질문에 과기정통부에선 “야간에 작업하는 걸 좋아하는 사람은 없고, 주간에 작업하는 걸 선호하기 때문인 것으로 파악이 됐다”라는 대답을 내놨다. 이들이 선호하는 주간으로 작업 시간을 옮겼음에도 불구하고 작업 현장에는 KT관리자 하나 없이 협력사 직원들끼리 있었다. 규정을 어긴 건 물론이고 관리, 감독의 책임도 소홀히 했다.

④안전장치 못 만드나?

KT의 한 지사에서 일어난 실수가 전국으로 쉽게 번질 수 있는 시스템이라면 사전에 안전장치를 만들어놨어야 하지 않았을까.

통신사에선 장비의 교체나 유지·보수 과정을 할 때는 특정 기기의 문제가 전체 통신망으로 확산되는 것을 막기 위해 데이터 송수신 우회로를 미리 설정하거나 백업 장비를 준비하도록 의무화하고 있지만, 이번 사고 발생 과정에선 이런 단계를 찾아볼 수 없다.

홍진배 과학기술정보통신부 정보보호네트워크정책관이2021년 10월 29일 정부서울청사 브리핑실에서 25일 발생한 KT 네트워크 장애 원인분석 결과를 발표하고 있다./연합뉴스

과기정통부는 사고 조사 이후 “네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었다”고 밝혔다. 오류를 사전에 잡아낼 수 있는 시뮬레이션을 거친 뒤에 작업을 했다면 사고를 방지할 수도 있었다는 얘기다. 특히 신형장비로 교체하는 이번 작업에서 사전 테스트도 없었단 걸 이해할 수 없단 비판도 나왔다. 통신전문가들은 “장비와 기술이 빨리 업데이트가 되는 요즘, 거기에 발빠르게 대응하기 위한 대책과 메뉴얼이 필요하다”고 했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?