파일 하나에 인프라 먹통…"위험성 드러난 클라우드, SLA 강화가 답"

김현아 2024. 7. 21. 17:59
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

민낯 드러난 초연결 사회..IT재앙 막으려면
전세계 인프라 연결한 클라우드..복구에 시간걸려
안전한 사용위해 시스템 이중화 필요.. 비용증가
방송통신발전기본법 개정해도 국내 기업만 규제 불가피
SLA에 보상조건 포함 고도화해야

[이데일리 김현아 임유경 기자] 지난 19일(미국 현지시간) 발생한 글로벌 사이버 정전 사태는 클라우드 기반의 미국 보안 소프트웨어 회사 크라우드스트라이크의 프로그램 업데이트 과정에서 발생했다. 크라우드스트라이크가 배포한 클라우드 기반 보안 프로그램 ‘팰컨’의 업데이트가 마이크로소프트(MS) 운영체제(OS) 윈도와 충돌을 일으킨 것이 원인이었다.

어떻게 소프트웨어 업데이트 파일 하나가 전 세계 기간 인프라를 멈추게 했을까. 윈도를 쓰는 단말기 850만대가 PC화면이 파랗게 변하는 먹통(블루스크린)이 됐다. 전세계가 클라우드로 묶여 있었기 때문이다. MS의 클라우드 서비스인 ‘애저’를 사용하는 글로벌 항공사, 은행, 병원, 방송사들이 피해를 입었다. 이로 인해 일각에서는 클라우드 신중론까지 제기되고 있다.

[이데일리 김일환 기자]
클라우드 사고 막기 어려워

클라우드란 외부의 저장 공간에 데이터와 시스템을 구축해 두고 필요할 때 인터넷 등을 통해 접속해 사용하는 개념이다. 그러나 오류가 발생하면 피해 규모가 회사 내부에 전산 시스템을 구축했을 때보다 훨씬 크다. 이번에도 소프트웨어 업데이트 파일 하나가 문제가 됐다. 크라우드스트라이크의 보안 소프트웨어는 클라우드 위에서 실행되는데, 공격 징후를 감지하기 위해 기기 내부의 여러 곳에 접근하게 된다. 이 과정에서 컴퓨터에 설치된 운영체제(윈도)와 충돌을 일으킨 것이다. MS가 자사의 클라우드 위에서 서비스되는 소프트웨어에 대해 충분히 업데이트 테스트를 하지 않은 실수가 전 세계 IT 재앙으로 이어진 셈이다.

유사한 사례는 2018년 11월 22일 발생한 아마존웹서비스(AWS) 한국 리전(데이터센터 허브) 먹통 사태다. 당시 삼성전자 빅스비, 나이키, 쿠팡, 업비트, 넥슨, 푹(현 웨이브), 배달의민족, 야놀자, 여기어때, 마켓컬리 등 국내 기업들이 큰 피해를 입었지만, 공식적인 사고 원인은 밝혀지지 않았다. AWS 서버는 KT 마포데이터센터에 있었지만, 운영은 미국 본사나 호주에서 이뤄졌다. 당시 KT 클라우드사업부 관계자는 “국내에도 (외국계 클라우드의) 서버가 있지만 운영은 미국 본사나 호주에서 이뤄지기 때문에 현지 법인은 100% 세일즈 역할만 한다. 금융사고 발생 시 국내 법인이 관여하기 어렵다”고 밝혀, 사고 대응에 어려움을 겪었다고 말했다.

또한 클라우드가 서비스되는 리전(데이터센터 허브)에서 정전이나 화재 같은 사고가 발생해도 피해 복구가 어렵다. 2022년 10월 15일 SK(주) C&C 데이터센터 화재로 카카오의 서비스가 장기간 먹통이 된 사례가 대표적이다. 카카오의 메신저뿐만 아니라, 카카오택시, 대리운전, 카카오페이 등의 서비스가 서로 연결돼 있어 피해가 더 컸다.

전문가들은 전 세계 IT 인프라에서 중요한 역할을 하는 클라우드 사고를 사전에 완전히 차단하기는 어렵다고 지적한다. 김승주 고려대 정보보호대학원 교수는 “클라우드 회사가 대규모 보안 인력을 보유하고 있어 개별 기업보다 안전하다고 여겨지지만, 실제로는 문제가 발생할 수 있다. 대규모 클라우드 시스템에서는 보안 패치나 롤백(원상복구)도 신속하게 이루어지지 않을 수 있다”고 경고했다.

이번 사태에서 피해를 입은 윈도 기기들은 수동으로 파일을 삭제해야 하는 상황이라, 전 세계 피해 시스템이 모두 복구되기까지 시간이 걸릴 것으로 예상된다. 사이버 보안 업체 위드시큐어의 최고연구책임자(CRO) 미코 히포넨은 “수천만 대의 컴퓨터를 일일이 수동으로 복구해야 할 것 같다”며, “CEO의 노트북이나 컴퓨터와 같은 핵심 기기들은 이미 복구됐겠지만, 평직원의 기기들은 수리 인력이 도착할 때까지 시간이 꽤 걸릴 것”이라고 내다봤다.

유나이티드 이어라인 직원이 19일(현지시간) 미국 뉴어크 공항 내 블루스크린이 뜬 화면 앞에 서있는 모습(사진=로이터)

클라우드 이중화, SLA 고도화할 밖에

전문가들은 클라우드를 안전하게 사용하기 위해 이중화가 도움이 될 수 있지만, 이로 인해 비용이 증가할 수 있다고 지적했다. 클라우드 서비스를 이용하는 주된 이유 중 하나가 비용 절감인데, 이중화를 시행하면 오히려 시스템을 회사 내부에 설치했을 때보다 비용이 더 발생할 수 있다. 클라우드 업계 관계자는 “기업이나 정부가 클라우드 서비스를 도입할 때는 서비스별로 멀티 클라우드를 사용할지 여부와 특정 클라우드 서비스에 대한 요구 사항을 명확히 해야 한다”고 설명했다. 즉, 전산 시스템 중 어떤 것을 클라우드로 전환할지, 그리고 어떤 시스템을 이중화할지 꼼꼼히 따져서 구축해야 한다는 것이다.

그러나 클라우드를 외면하고 디지털 전환의 이익을 챙기기는 어렵다는 의견이 많다. 클라우드 기술을 사용하면 AWS, MS, 구글과 같은 딥테크 기업의 전산 운영 경험과 신기술 접목 유연성을 그대로 흡수할 수 있기 때문이다. 이러한 이유로 글로벌 유수 기업과 미국 국방부와 같은 보안이 중요한 기관도 2022년 JWCC(Joint Warfighting Cloud Capability) 프로그램을 통해 구글, 오라클, 아마존웹서비스(AWS), 마이크로소프트(MS) 등 4개 사업자와 12조원이 넘는 계약을 체결했다. 우리나라에서도 지난해 10월 디지털플랫폼정부위원회는 정부 및 공공 전산 시스템에 클라우드 네이티브를 우선 적용하라는 발표를 했다. 같은 이유로 가트너에 따르면, 글로벌 클라우드 시장은 올해 작년보다 20% 성장하여 6787억 달러(약 900조 원)에 이를 것으로 전망된다.

클라우드 전환이 대세인 가운데, 사고를 최소화하고 피해를 줄이는 방법은 무엇일까. 전문가들은 법적인 해결책보다는 ‘서비스 수준 협약(SLA, Service-Level Agreement)’의 고도화가 필요하다고 강조한다. 방송통신발전기본법을 개정하여 클라우드 기업들에게 재난 관리 의무를 부여하더라도, AWS나 MS와 같은 외국계 기업을 사고 이전에 사전 점검하기는 어려운 현실에서 국내 기업만 규제의 대상이 될 수 있기 때문이다.

김승주 교수는 “SLA에는 장애 정의, 중단 시 보상 조건 등이 포함돼야 하며, 정부는 이를 통해 클라우드 서비스 제공업체들의 책임을 강화해야 한다”고 설명했다. 공공 시스템에 클라우드를 도입할 때 SLA를 통해 보상 조건을 명확히 하는 것이 현실적인 대안이라는 의미다.

김현아 (chaos@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?