반복되는 AI 서비스 장애, 무엇이 문제일까

며칠 전 ChatGPT에 접속이 되지 않는 등의 서비스 장애가 발생했습니다. 이는 지난 6월, 14시간 이상 동안 ChatGPT와 Sora 등 OpenAI의 핵심 서비스들에 접속이 되지 않거나, 연관된 API들이 응답하지 않은 심각한 장애가 발생한 지 불과 한 달여 만에 다시 발생한 장애였습니다.

이처럼 2025년에 들어서서 다양한 AI 서비스들에서 크고 작은 장애들이 지속적으로 발생하고 있는데요. 앞서 말씀드린 ChatGPT의 장애사례뿐만 아니라 Anthropic의 Claude, Google의 Gemini 등 주요 AI 서비스에서도 유사한 장애가 발생해 전 세계의 사용자들이 불편을 겪기도 했습니다.

위와 같은 AI 모델에 문제가 생기는 경우, API로 연동되어 있는 기업들까지도 피해를 볼 수 있는데요. 해당 AI을 내부에 연동하여 활용하던 기업들 뿐만 아니라, 해당 모델 위에 본인들의 서비스를 구축하여 제공하던 스타트업 기업들까지 피해를 보게 된 것입니다.

AI 서비스들의 장애 빈도가 높아지는 주요 원인으로는, AI 서비스 이용량이 폭증하는데 비하여 서비스를 제공하기 위한 인프라가 충분히 갖춰지지 못했다는 점이 지적되고 있습니다.

특히나, 위에 언급한 ChatGPT, Claude, Gemini 등 글로벌 서비스가 제공되는 AI의 경우 수십, 수백만 사용자의 대량의 요청을 실시간으로 처리하기 위해서는 데이터센터, 네트워크, 전력 등의 용량이 충분히 확보되어야 할 필요가 있는 것입니다.

때문에, AI기업들 뿐만 아니라 AI주도권을 확보하기 위한 많은 국가들이 AI 인프라 확보를 국가적 핵심과제로 선정하고 막대한 투자를 진행하는 것이라고 생각할 수 있습니다.

인프라 확보 외에도, AI 서비스 기업들은 이러한 장애를 최소화하기 위하여 경량 모델 마련에 최선을 다하고 있으며 멀티 벤더 전략과 같이 위험을 분산하는 방식을 적극 도입하고 있다고 합니다. 또한 비상시 백업 및 복구 체계 강화를 비롯한 SLA(서비스 수준 계약) 개선 및 사용자 보상 등 신뢰 회복에도 많은 노력을 기울여야 할 것입니다.

블로그(상세 내용) 보러가기