[현장연결] '행정전산망 먹통' 발생원인·후속대책 발표

심은진 2023. 11. 25. 15:43
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

정부가 지난주 지자체 행정망의 장애가 발생한 원인이 무엇인지 현재까지 확인된 내용에 대해서 발표합니다.

후속 대책도 이야기 하는데요.

현장 연결합니다.

[송상효 / 지방행정전산서비스 개편 TF 공동팀장]

안녕하십니까.

지방행정 전산 서비스 개편 TF의 공동팀장을 맡고 있는 송상효 교수입니다.

먼저 원인 분석반 구성 및 활동에 대해서 말씀드리도록 하겠습니다.

원인 분석반은 총 29명으로 구성하였습니다.

LG CNS, 네이버 클라우드, 소울시스템즈 등 외부 전문가 16명과 국가 정보 자원 관리원 통신 운영, 보안 부서의 소속 인력 13명으로 구성하였습니다.

특히 외부 전문가 중 11명은 장애 발생 초기부터 복구에 참여한 인력들로 구성함으로써 업무 연속성을 확보할 수 있었습니다.

이번 원인 분석에 한 가지 아쉬웠던 것은 장애 발생일 이후 이번 원인 분석 결과를 발표하기까지 기간이 국민께서 생각하신 시간보다 오래 걸렸다는 점입니다.

이번 장애가 가지는 사안의 중요성 그리고 관련 시스템의 복잡성을 감안했을 때 종합적으로 검토할 필요가 있었고 충분한 검증을 통해 신중하게 결과를 설명할 필요가 있다는 점을 양해 부탁드립니다.

원인 분석 결과에 대해서 말씀드리도록 하겠습니다.

먼저 장애 당시 남겨진 로고를 분석한 결과 장애 원인이 네트워크 영역에서 발생하였을 확률이 높은 것으로 추정하였습니다.

왜냐하면 비정상 상태가 통합 검증 서버의 네트워크 세션에서 확인되고 네트워크 장비 중의 하나인 L4 장비의 OS 업데이트가 전일 있었으며 L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것을 확인되었기 때문입니다.

이와 더불어 네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있습니다.

그렇기 때문에 원인 분석반은 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켰으며 이로 충분한 검토와 테스트를 진행하였습니다.

한편 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정하여 보안 당국과 함께 확인하였습니다.

최근 해외에서 나라장터 시스템에 집중 접속하여 일시적인 과부하로 인한 일부 장애가 발생했었었는데 이후 보안당국과 함께 전체 시스템에 대해 다시 한번 점검을 실시하였습니다.

현재까지는 해킹 징후가 보이지 않았습니다만 앞으로도 해킹에 대해서 유의하여 관리하도록 하겠습니다.

다음은 장애를 일으킨 원인입니다.

네트워크 장비를 대상으로 하는 성능 측면 점검의 경우에는 구간을 나누어 반복적인 부하 테스트를 진행하였고 장애 및 접속 지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용하였습니다.

이와 같은 분석을 반복하여 수행한 결과 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰하게 되었는데 특히 1500바이트 이상의 패킷은 90%가 유실되었습니다.

이 현상의 원인은 라우터 장비의 케이프를 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문입니다.

이렇게 패킷이 유실됨으로써 통합 검증 서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 되었고 지연이 중첩되어 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것입니다.

이는 로그에서도 확인할 수 있었습니다.

이해를 돕기 위해 네트워크 구성도를 이용해 부연 설명을 드리도록 하겠습니다.

네트워크 구성도는 오른쪽에 있습니다.

이쪽에 있고요.

일단 국가정보원 관리원은 11월 18일 04시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체하였고 교체한 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개하였습니다.

그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동하였지만 일부 기능의 지연 현상은 발견하게 되었습니다.

지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인하였고 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과 해당 포트에 불량이 발견되어 11월 19일에 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소하였습니다.

이와 같은 작업에도 불구하고 위의 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어 서버에 발생한 로고를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트 과정을 거쳤습니다.

통합인증 서버가 존재하는 존에 함께 운영되는 서버는 물리 서버 150여 대, 소프트웨어는 각각 웹 서버 19식, 와스 서버 50식, DBMS 56식이 있었습니다.

특히 통합인증 서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았습니다.

통합 인증 서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 라우터 장비 2대, 및 L4 장비 4대, 국가 정보 통신망 영역에 라우터 장비 8대가 있었습니다.

이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집하여 분석하였습니다.

또한 앞서 설명드린 장애 및 접속 지연에 발생한 영역을 확인하며 장애 유발 원인을 좁혀나가는 위를 네트워크와 테스트의 경우 3차에 걸쳐 총 8회.

1차 4회, 2차 2회, 3차 2회 수행하였습니다.

원인 분석을 위해 수행한 부하 테스트의 시나리오는 다음과 같습니다.

통합 인증 서버로의 트래픽 유입량을 변경하는 경우 L4 장비를 경호하지 않는 경우.

캐핏 표기를 변경하는 경우, 서비스 사용자 수를 500명 또는 1500명 등으로 다양하게 변경하는 경우, 장비를 경유하는 네트워크 대역폭을 변경하는 등의 다양한 시나리오 상황에서 네트워크 영역에서의 접속 지연 및 이상 유무를 확인하였습니다.

이와 같이 확인 과정을 거쳤으나 앞에 말씀드린 라우터 장비의 불량 이외에는 다른 이상 현상을 발견할 수는 없었습니다.

확인된 사실을 신속히 발표했어야 하나 결과에 대한 신뢰를 높이기 위해서 명확한 검증 과정이 필요하였고 이에 따라 상당한 시간이 소요되었습니다.

참고로 지금까지 설명드린 결과에 대한 제 확신을 가지기 위해 당초에 원인으로 지목되었던 L4 장비 및 라우터를 이용하여 장애 당시와 유사한 환경을 구현하여 검증하였습니다.

어제부터 오늘까지 반복적으로 원인에 대한 재연 가능성을 확인하는 작업을 수행하였습니다.

그 결과 검증 환경에서도 동일하게 라우터의 패킷 유실.

즉 장애를 유발할 수 있는 현상이 재현되었습니다.

이로써 저희가 판단한 장애의 원인이 재입증되었다고 보아 오늘 국민 여러분들께 말씀드리게 되었습니다.

이상으로 지방행정 전산 서비스 장애 원인 분석 결과에 대한 발표를 마치도록 하겠습니다.

감사합니다.

[고기동 / 행정안전부 차관]

지금부터는 재발방지 종합대책의 수립 방향에 대해 설명드리겠습니다.

이번 장애를 반면교사 삼아 다시는 이런 일이 재발하지 않도록 문제점을 하나하나 들여다보면서 근본적이고 실효성 있는 보완 대책을 마련하고자 합니다.

먼저 이번에 유사한 포트 불량이 있을 수 있는 오래된 장비들에 대해 오늘부터 전수점검에 착수했습니다.

다음으로 이번 장애와 관련하여 국민에게 장애 상황을 빨리 알려드리지 못한 문제를 해결하기 위해 장애 발생 시의 처리 매뉴얼을 보완토록 하겠습니다.

또한 다양한 수단을 활용하여 장애로 인한 서비스 복구 상황을 신속히 알려 국민 불편을 최소화하겠습니다.

셋째 전산 장애가 발생하였을 때 신속한 복구 조치가 가능한 체계를 마련하겠습니다.

장애 조치 시간을 단축하기 위해 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고 상설 장애대응반을 구성하여 중요 장애에 투입함으로써 조기에 문제를 해결할 수 있도록 하겠습니다.

이런 부분은 장애 조치 매뉴얼에 더욱 보완하겠습니다.

넷째 핵심 디지털 정보 서비스가 중단되는 상황에서도 행정 서비스가 제공될 수 있도록 행정 조치 방안을 마련하고 대응 매뉴얼을 수립하겠습니다.

이를 반영하여 국가 전산망 마비를 재난 및 사고 유형으로 명시하여 예방부터 복구까지 체계적으로 관리해 나가도록 하겠습니다.

한편 디지털 정보를 안정적 운영하기 위해 중장기적 제도 개선 방안도 마련하겠습니다.

먼저 범정부, 디지털 정부 위기 대응 체계를 확립하겠습니다.

개별 정보 시스템의 장애 복구를 넘어 다수 정보 시스템이 연계된 디지털 정부 환경에 걸맞은 위기 대응 체계를 구축하고 이를 총괄하는 범정부 장애 예방 대응 컨트롤타워를 보다 강화하겠습니다.

다음으로 공공 정보화 사업 추진 방식을 마련하고 투자 계획을 마련하겠습니다.

공공 정보화 사업의 추진 절차와 사업관리 체계 등을 개선해 나가고 내용 연수가 지나 잠재적 위험성이 높은 하드웨어와 소프트웨어의 신속한 교체와 기술력 높은 기업 참여를 위한 공공정보화 사업의 사업 대가 현실화 등도 추진해 나가겠습니다.

아울러 안정적인 디지털 정부 구축 운영을 위한 역량을 높여나가도록 하겠습니다.

디지털 정부의 핵심 업무인 정보 시스템 개발 운영을 외주 용역에 의존하는 기존 체계를 개선하고 디지털 분야 우수 인재가 정부에 유입되어 역량을 발휘할 수 있도록 하겠습니다.

마지막으로 국가정보자원관리원의 운영 방식을 전면 재검토하겠습니다.

국가정보자원관련원에 입주한 시스템에 대한 이중화, 재복구 시스템 네트워크 구성 등의 기술 구조를 전면 검토하고 조직 진단을 통해 조직 구성과 인사 운영 등 개선 방안을 마련하겠습니다.

연합뉴스TV 기사문의 및 제보 : 카톡/라인 jebo23

(끝)

네이버에서 연합뉴스TV를 구독하세요
연합뉴스TV 생방송 만나보기
균형있는 뉴스, 연합뉴스TV 앱 다운받기

Copyright © 연합뉴스TV. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?