클라우드 안정성 유지하는 비결, 이제는 'SRE' 이다

김성준 2021. 10. 8. 09:01
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

현재 클라우드(cloud)는 공간기반의 아키텍처로 자리 잡았다.

현재 클로우플레이크는 4월부터 L-고객사 SRE팀을 구성하여 대규모 클라우드서비스의 신뢰성을 높이기 위해 고객사에 투입되어, L사 내부 TECH팀 SRE 부문에서의 수행역할은 장애와 같은 신속한 이슈 대응을 비롯한 SLI/SLO/SLA 기준 지표 수립, 대규모 이벤트에 대한 관리, 시스템 점검 체계 개선, 성능/부하테스트, 기존 MSA 모듈의 점검, 효율적인 아키텍쳐 구성 및 운영 프로세스 자동화 수립 등과 같은 역할을 담당하고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

클로우플레이크㈜, 클라우드서비스 향상 위한 방법으로 'SRE'팀 운영
사진= 클로우플레이크. 제공

현재 클라우드(cloud)는 공간기반의 아키텍처로 자리 잡았다. 레거시시스템, 신규시스템, 서비스의 통합이나 고도화에 따른 플랫폼의 확장으로 시스템의 안정성과 신뢰성이 중시되어 기업의 대다수는 클라우드를 도입 했거나 고려하고 있다. 그렇지만 온프라미스 시스템의 클라우드 전환이 결코 간단치 않은 실정이다. 핵심은 구축한 이후의 안팎으로 변화되는 인프라, S/W의 지속적인 통합과 융합은 안정성이 생명인 클라우드 시스템에 있어서는 관리적인 요소의 기술과 운영이다.

시장 변화에 신속하게 대응하기 위한 개발과 운영의 원활한 협업체계, 자동화된 배포기술, 프로세스 전반의 혁신을 진행할 수 있는 클라우드 기술과 클라우드네이티브 경험이 핵심도구로 요구된다. 이제는 SRE(Site Reliability engineering) 방법론이 적용되기 시작했으며, 클라우드네이티브 환경/방식에서 SRE를 설계해 DevOps를 위한 구체적인 가이드를 제공 할 수 있게 됐다.

SRE 기능적 역할에는 어떤 것이 있는지 다음 세 분류로 나열한다.

▲운영팀, 개발팀이 코드 변경 시 인프라, S/W, 애플리케이션을 배포 자동화하여 기간 단축. ▲오픈소스 기반의 모니터링 체계 및 구축, 모니터링구성을 자동화하여 서비스를 안정적으로 지속시킴. ▲개인 및 그룹별 작업에 대한 공유 및 협업을 통한 신속하고 체계적인 대응체계를 구현한다.

위와 같이 업무수행을 위해 클라우드 기능에 대한 운영설계를 할 때, 이제는 SRE를 기준으로 디자인 하며, 서비스 품질개선, 모니터링, 관제, 장애분석, 처리프로세스 등의 방법들을 운영 및 개발팀에 설계기준과 SRE의 세부 Job description을 정의하고 협업사항을 가이드 하는 것으로 시작하게 된다.

그동안 클로우플레이크에서 진행한 SRE 주요 업무내용은 아래와 같다.

▲인프라에 대한 모니터링 시스템을 개발하고 개선함. ▲프로세스의 Gap을 확인하고 프로세스를 개선하여 효율성 향상시킴. ▲시스템 지원범위와 품질향상을 개선할 수 있는 도구, 시스템, 프로세스 개발. ▲실시간 데이터를 분석하여 문제의 심각성과 영향을 파악하여 가이드하고 조언. ▲버그를 식별하고 고객사 시스템 기능의 불규칙성을 확인 후 평가하고 문서화 정리함. ▲운영팀, 개발팀과 협력하여 문제를 공유하고 해결할 수 있도록 시스템화, 표준화다.

현재 클로우플레이크는 4월부터 L-고객사 SRE팀을 구성하여 대규모 클라우드서비스의 신뢰성을 높이기 위해 고객사에 투입되어, L사 내부 TECH팀 SRE 부문에서의 수행역할은 장애와 같은 신속한 이슈 대응을 비롯한 SLI/SLO/SLA 기준 지표 수립, 대규모 이벤트에 대한 관리, 시스템 점검 체계 개선, 성능/부하테스트, 기존 MSA 모듈의 점검, 효율적인 아키텍쳐 구성 및 운영 프로세스 자동화 수립 등과 같은 역할을 담당하고 있다.

이제는 SRE도 고객 맞춤형 서비스로 진화하고 있다.

클로우플레이크 권진용 팀장은 5일 이와 관련해 "고객사의 시스템을 점검할 때, SRE 통한 서비스 수준 및 상태를 파악하기 위해 근거가 되는 지표정보의 수집과 정리가 가장 중요한 요소라 할 수 있다"고 말했다.

다양한 자동화 툴을 활용해 고객상황에 맞는 SRE Service 아키텍처를 구축하고, SRE 적용을 위한 검토와 설계, 그리고 배포 파이프라인 구성, 자동배포, 자동테스트로 플랫폼이 안정화되도록 하고 있어 시장의 반응이 더욱 주목된다. 김성준기자 illust76@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?