'EXIT' 단어 하나가 전국 마비시켰다? KT 먹통 90분의 전말
지난 25일 오전 11시20분 쯤, 기업이나 관공서가 가장 바쁠 월요일 오전에 유무선 인터넷이 전국적으로 먹통이 됐다. 주식 거래, 학교 온라인 수업, 병원 진찰까지 멈췄다는 민원도 쏟아져나왔다. 인터넷 대란 사태는 점심까지 이어져 식당의 결제는 물론 배달 플랫폼 주문·결제까지 할 수가 없었다. 코로나 사태를 거치면서 지난해와 올들어 비대면 거래가 폭발적으로 늘어나는 바람에 피해는 곳곳에서 터져나왔다. 서울 광화문의 한 식당 주인은 “카드 단말기가 작동을 안한다고 신고하려는데, 휴대전화와 인터넷 전화가 걸리지 않아 결국 손놓고 있었다”고 했다. 오전 11시16분부터 낮 12시45분까지, 약 한시간 반 동안 KT의 유무선 인터넷 장애로 전국이 마비됐다.
사태의 원인은 ‘exit’라는 단어 하나에서 비롯됐다. 지난 29일 오후 과학기술정보통신부가 정보보호·네트워크 전문가로 구성된 사고조사반과 함께 조사한 사고 발생 경위를 발표했다. KT 부산지사에서 시설 교체를 하면서 설정 명령어를 입력하면서 작업자가 ‘exit’이란 단어 하나를 누락해 전국 인터넷망이 다운됐다는, 믿기 어려운 황당한 결과가 나왔다. ‘exit’이란 단어 하나가 어떻게 전국의 유무선 인터넷을 마비시킬 수 있는지 과기정통부의 발표에 근거에 정리해봤다.
①exit이 대체 무슨 잘못을 했길래...
사고가 일어났을 당시 KT부산지사에서 기업용 라우터를 신형으로 교체하는 작업이 이뤄졌다. 라우터는 기지국에서 보내는 데이터를 받아서 수신자에게 전달해주는 중간 연결 장치이고, 라우팅은 이 장치를 통해 최적의 데이터 이동 경로를 설정하는 것이다. 라우터끼리는 최신의 경로정보를 교환하는 프로토콜을 사용하는데, KT의 경우 KT네트워크와 외부 네트워크와의 경로 구성에는 BGP프로토콜을, KT네트워크 내부 경로 구성에는 IS-IS프로토콜을 사용한다. 라우터는 BGP와 IS-IS프로토콜을 통해 교환한 정보를 종합해서 최종 경로를 설정한다.
이날 사고가 발생한 라우터에 IS-IS프로토콜 명령어를 입력하는 과정에서 작업자는 프로토콜을 종료하는 명령어 ‘exit’을 쳐야했다. 이걸 빠뜨리는 바람에 BGP프로토콜과 연결이 됐고, BGP프로토콜에서 교환해야 할 경로 정보가 IS-IS프로토콜로 몰렸다. 통상 1만개 내외 정보를 교환하는 IS-IS프로토콜에 수십만개의 BGP프로토콜의 정보가 모이면서 경로 설정에 오류가 생겼다.
과기정통부의 발표에 따르면 IS-IS프로토콜 명령어를 완성한 다음 1,2차에 걸린 검증 과정이 있었지만 당시 아무도 ‘exit’을 빠뜨린 오류를 잡아내지 못했다.
②부산에서 사고가 발생했다던데 왜 전국에?
부산에 있는 라우터의 IS-IS프로토콜에 입력된 오류가 전국에 연쇄적으로 영향을 주는 과정은 간단하다.
KT 네트워크에 있는 라우터들을 이어주는 IS-IS프로토콜은 안전장치 없이 전국을 모두 하나로 연결하고 있다. IS-IS 프로토콜로 이어진 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는다. KT 부산 지사 라우터에 잘못된 라우팅 경로가 설정되면, 서울이나 대전 등 전국 지사의 KT 라우터에도 잘못된 업데이트 정보가 전달되는 식이다. 이번 사태에서 부산에서 서울로, 다시 전국으로 오류가 전달되는 데는 30초가 안걸렸다.
③왜 월요일 오전에 작업을 했을까?
① 번은 실수, ②번은 시스템이나 기술의 맹점이라면 ③번은 그야말로 전형적인 인재에 해당한다.
통상 통신사에서 설비교체나 업데이트는 사고, 장애를 대비해서 통신량이 적은 새벽에 작업을 하는 것으로 알려졌다. 원래 이 작업도 KT는 설비 교체를 하는 협력사에게 26일 새벽 1시부터 6시까지 작업을 하도록 승인을 했다. 과기정통부의 조사에 따르면 야간에 하기로 한 작업을 KT관리자와 협력사 작업자들이 주간에 하기로 합의를 하고, 당초 승인 받은 시간보다 앞서 월요일 오전에 작업을 했다. 왜 작업 시간을 임의로 옮겼냐는 질문에 과기정통부에선 “야간에 작업하는 걸 좋아하는 사람은 없고, 주간에 작업하는 걸 선호하기 때문인 것으로 파악이 됐다”라는 대답을 내놨다. 이들이 선호하는 주간으로 작업 시간을 옮겼음에도 불구하고 작업 현장에는 KT관리자 하나 없이 협력사 직원들끼리 있었다. 규정을 어긴 건 물론이고 관리, 감독의 책임도 소홀히 했다.
④안전장치 못 만드나?
KT의 한 지사에서 일어난 실수가 전국으로 쉽게 번질 수 있는 시스템이라면 사전에 안전장치를 만들어놨어야 하지 않았을까.
통신사에선 장비의 교체나 유지·보수 과정을 할 때는 특정 기기의 문제가 전체 통신망으로 확산되는 것을 막기 위해 데이터 송수신 우회로를 미리 설정하거나 백업 장비를 준비하도록 의무화하고 있지만, 이번 사고 발생 과정에선 이런 단계를 찾아볼 수 없다.
과기정통부는 사고 조사 이후 “네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었다”고 밝혔다. 오류를 사전에 잡아낼 수 있는 시뮬레이션을 거친 뒤에 작업을 했다면 사고를 방지할 수도 있었다는 얘기다. 특히 신형장비로 교체하는 이번 작업에서 사전 테스트도 없었단 걸 이해할 수 없단 비판도 나왔다. 통신전문가들은 “장비와 기술이 빨리 업데이트가 되는 요즘, 거기에 발빠르게 대응하기 위한 대책과 메뉴얼이 필요하다”고 했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 2조원 규모 불법 도박사이트 운영책 필리핀에서 체포
- “예약된 비행기표가 없습니다”…日 가려던 케이윌, 공항서 막힌 이유
- 다시 찾아온 동장군...내일 영하12도 맹추위
- 우즈, 아들과 우승컵 들까...가족 이벤트 대회 첫날 선두
- 전체 인구 1% 한국 부자, 전체 금융자산 59% 갖고 있다
- 회사 돈 빌려 53억 아파트 매입… 위법 의심 외국인 부동산 거래 282건 적발
- 홍준표 “사람 현혹해 돈벌이하는 ‘틀딱 유튜브’ 사라졌으면”
- 기아, 인도에서 콤팩트 SUV ‘시로스’ 세계 최초 공개
- 조국혁신당, 한덕수 탄핵 소추안 준비...“내란 방조, 부화수행”
- 금감원, 뻥튀기 상장 논란 ‘파두’ 검찰 송치