[르포] 카카오 첫 데이터센터…먹통 트라우마 넘는다

최은수 기자 2024. 6. 12. 12:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

안산 한양대 에리카캠퍼스 내 첫 자체 데이터센터 개소
데이터 다중 복제 및 전력·통신·냉방 등 주요 시스템 이중화
하반기 안산 시민에 개방해 재발방지 의지 피력
카카오 데이터센터 안산 전경(사진=카카오) *재판매 및 DB 금지


[안산=뉴시스]최은수 기자 = 2022년 10월 15일. 카카오가 잊지 못하는 날짜다. 당시 SK C&C 판교 데이터센터 화재 사고로 인해 카카오톡을 비롯한 주요 서비스들이 127시간의 장시간 장애를 겪었고, 카카오 경영진은 고개 숙여 대국민 사과를 했다. 정신아 카카오 대표는 "트라우마와 같은 뼈 아픈 경험”이라고 평했다.

장애 이후 서비스 안정성 강화에 총력을 기울여온 카카오가 지난 1월 가동을 시작한 첫 자체 데이터센터를 공개했다. 과거 서비스 장애 당시 미비하다고 지적을 받은 화재대응시스템 및 이중화 강화에 심혈을 기울였다. 이러한 의지를 알리기 위해 올 하반기 국내에서 처음으로 안산시민을 대상으로 한 데이터센터 투어도 시범 운영할 예정이다.

카카오 데이터센터 안산 종합상황실 (사진=카카오) *재판매 및 DB 금지

안정성 극대화… 24시간 무중단 운영 위해 전 시스템 이중화

"불 나도 끄떡 없다"…자체 개발한 화재대응시스템 특허 출원

카카오 데이터센터 안산 전산동 2층 배터리실(사진=카카오) *재판매 및 DB 금지
카카오는 지난 11일 경기도 안산시 한양대 에리카(ERICA) 캠퍼스 내 위치한 ‘카카오 데이터센터 안산(이하 데이터센터 안산)’에서 ‘프레스 밋업’ 행사를 열었다.

이날 공개된 데이터센터 안산은 연면적 4만7378 제곱미터의 하이퍼스케일(10만대 이상의 서버를 운영할 수 있는 초대형 데이터센터) 규모로, 4000개의 랙, 총 12만대의 서버를 보관하고 6EB(엑사바이트)의 데이터를 저장할 수 있다. 24시간 무중단 운영 시스템과 강력한 재난 설계가 적용된 것이 특징이다.

데이터센터 안산은 보안상의 이유로 운영동과 전산동을 분리했다. 운영동 1~2층은 안산 시민에게 개방해 다목적 공간으로 구성됐다. 운영동 3~6층은 데이터센터 관리자들이 상주하는 공간이다. 5층 종합상황실에서는 센터 전체 기반 시설을 모니터링하고 근무자들이 24시간 교대 근무하고 있었다. 실시간으로 수천 개의 포인트에서 초당 수십만 개의 데이터를 수집하고 있다.

전산동 3층부터 6층까지 총 8개로 이뤄진 서버실은 항온항습기가 온도와 습도를 적절한 상태로 유지한다. 연기 감지기를 통해 화재 진압 시스템도 갖췄다. 4000개의 랙, 총 12만대의 대규모 서버를 보관하고 있는 만큼 무정전 전력망을 갖췄다. 아울러 전력회사로부터의 전기를 공급받는 전력망부터 서버에 전기를 최종적으로 공급하기까지의 전 과정과 통신회사에서 서버까지 통신을 제공하는 과정, 냉동기부터 서버실까지의 냉수 공급망 등 운영설비를 이중화했다.

전기실에는 거대한 노란색의 비상발전기가 즐비했다. 만약 전기 공급이 끊겨 정전이 감지가 되면 총 12대의 비상발전기가 동시에 가동된다. 센터에 전기를 보급하는 데는 약 20초 정도가 소요가 되는데 이 시간 동안에는 UPS(무정전전원장치)실과와 배터리가 서버실과 주요 장비 설비에 전기를 공급한다.


데이터센터 안산 내에서 가장 주목을 받은 곳은 UPS실과 배터리실이다. 지난 2022년 10월 카카오 SK C&C 판교 데이터센터 화재 당시 전기실내 UPS와 리튬이온 배터리에서 발생한 불꽃(스파크)이 원인이 됐기 때문이다.

이에 카카오는 화재 진압이 어려운 리튬 이온 배터리 화재에 대비해 화재대응시스템을 자체 개발 및 적용했다. 해당 시스템은 현재 특허 출원했다.

배터리에서 화재 발생 시 내부 감시 시스템이 이를 자동으로 감지해 화재의 영향이 있는 배터리의 전원을 차단하고, 방염천 등으로 화재 전이를 막는다. 단계적으로 소화 약제를 분사해 초기 진화를 시도하고, 방수천을 올려 냉각수를 지속적으로 분사해 발화 원천을 차단한다. 만약 불이 꺼지지 않으면 소방서와 연계해 데이터센터 맞춤형 화재 진압을 하게 된다.

아울러 UPS실과 배터리실을 방화 격벽으로 분리 시공하고 모든 전기 판넬에 온도 감지 센서를 설치해 이상 온도 상승 시 즉각 대응하게 설계했다.

화재 외 모든 자연 재해 및 재난에도 대비한다. 지진 대응을 위해 국내 원자력발전소의 내진설계 기준에 준하는 특등급의 내진 설계도 적용했다. 안산시 지역 최대 풍속을 감안해 28m/s의 강풍도 견딜 수 있도록 대비했다. 홍수 피해를 대비해 지상1층 바닥을 주변 지표면보다 약 1.8미터 가량 높이 설계했고, 서버와 배터리, UPS 등 주요 설비도 모두 지상층에 배치했다.

옥상에는 거대한 냉각기들이 있다. 물효율지수를 높이기 위해 계절의 변화에 맞춰 3가지 모드로 운전하는 고효율 프리쿨링 시스템을 적용했다. 빗물과 비상 시를 위해 구비해두는 보충수는 조경용수, 소방용수 등으로 재사용한다. 태양광 패널도 옥상에 설치해 전력을 확보하고 있다. 이런 노력으로 총 에너지 사용량을 30% 감소시키고, 연간 에너지 비용을 약 31억 원까지 절감할 것으로 카카오는 예상하고 있다.

엔비디아 GPU 도입 준비…AI 중심 제2데이터센터 설립 추진

[안산=뉴시스] 고우찬 카카오 인프라기술 성과리더가 11일 경기도 안산시 한양대 에리카(ERICA) 캠퍼스 내 위치한 ‘카카오 데이터센터 안산’에서 ‘프레스 밋업’ 행사에서 발표를 하고 있다.(사진=카카오).2024.06.11 *재판매 및 DB 금지

카카오는 데이터센터 안산 개소를 통해 서비스 안정성을 높일 수 있다고 자신했다. 고우찬 카카오 인프라기술 성과리더는 "늦어도 다음 주부터는 카카오톡을 중심으로 여러 서비스들이 데이터센터 안산에서 운영이 될 것"이라며 "지난달 발생한 카카오톡 세 번의 오류는 데이터센터 안산과 상관이 없다. 이용자 트래픽도 이제 안산 데이터센터에서 처리가 될 것"이라고 강조했다.

카카오는 데이터센터 안산에 엔비디아의 GPU(그래픽 처리 장치) 도입을 검토하고 있다. 고우찬 리더는 "엔비디아 AI칩 H100, B100 등 차곡차곡 구매를 해서 도입할 예정"이라면서도 "안산 외 여러 데이터센터에 안정적 운영하기 위해 분산 배치할 것이며 언제라고 말씀드리기는 어렵다"라고 말했다.

AI 반도체 협력 계획에 대해 고우찬 리더는 "글로벌 업체와 이야기를 하고 있다"라며 "카카오 전체가 AI 서비스를 준비하고 있기 때문에 협력 강화를 위해 노력을 하고 있다. 최근 신설된 AI 전담조직과 논의를 하며 협력을 준비 중"이라고 설명했다.

한편 카카오는 제2 데이터센터 설립을 위한 부지 선정을 진행 중이다. 제2 데이터센터는 AI 기술 기반 서비스 운영을 포함 미래 기술환경에 효과적으로 대응할 수 있도록 HPC(High performance computing) 데이터센터로 특화 설계할 계획이다. 고우찬 리더는 "제2 데이터센터는 80메가와트 전기 사용이 예상된다. 공기만 갖고 냉각이 힘들다고 생각해 수냉식 냉각 시스템을 준비하고 있다"라며 "티어3 이상으로 안정성을 높일 예정"이라고 강조했다.


☞공감언론 뉴시스 eschoi@newsis.com

Copyright © 뉴시스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?