데이터브릭스 CTO "스노우플레이크보다 훨씬 효율적…TCO 절감 돕는다"

팽동현 2023. 4. 26. 07:56
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

"스노우플레이크는 최고의 클라우드 DW(데이터웨어하우스)입니다. 하지만 데이터브릭스의 레이크하우스 혁신은 그보다 빠르고 강력하다고 자신합니다."

디아고스티노 CTO는 "스노우플레이크 측도 우리가 낸 논문에 대응하면서 비교적 저비용인 스탠더드버전을 거론하는데, 기업에선 단일 데이터 거버넌스와 보안 등을 고려해 엔터프라이즈버전을 택할 수밖에 없을 것"이라며 "데이터브릭스가 데이터 워크로드 처리 전문성과 분산컴퓨팅 경험 등에서 크게 앞서있기에 이런 차이가 난다. 우리는 고객 TCO(총소유비용) 절감을 돕는 것을 목표한다"고 설명했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

크리스 디아고스티노 데이터브릭스 글로벌필드CTO가 자사 클라우드 데이터 플랫폼과 스노플레이크의 비용효율을 비교하고 있다. 팽동현 기자
데이터브릭스가 자사 글로벌 연례 행사 '데이터+AI월드투어'를 국내에서 처음 오프라인으로 개최했다. 데이터브릭스 제공

"스노우플레이크는 최고의 클라우드 DW(데이터웨어하우스)입니다. 하지만 데이터브릭스의 레이크하우스 혁신은 그보다 빠르고 강력하다고 자신합니다."

크리스 디아고스티노 데이터브릭스 글로벌 필드 CTO(최고기술책임자)는 25일 인터컨티넨탈 서울 코엑스에서 열린 '데이터+AI월드투어'에서 이같이 밝혔다. 이 행사는 데이터브릭스가 국내에서 처음 개최한 오프라인 컨퍼런스다.

디아고스티노 CTO는 기존 DW와 데이터레이크를 결합한 자사 '데이터레이크하우스'에 대해 "카메라·MP3를 따로 갖고 다니지 않아도 되게 한 아이폰을 생각해 만들었다"고 말했다. 멀티클라우드 데이터 관리 복잡도와 비용 증가를 해결하기 위한 통합 플랫폼을 마련, 단일 거버넌스 기반으로 데이터 엔지니어링부터 데이터 사이언스 및 AI(인공지능)·ML(머신러닝)까지 지원한다. 스파크 등 오픈소스SW(소프트웨어) 개발주역들이 모인 만큼 개방형 생태계도 꾸렸다.

이런 멀티클라우드 통합 데이터 플랫폼으로서 데이터브릭스와 종종 비교되는 대상은 스노우플레이크다. 이날 디아고스티노 CTO는 DBMS(데이터베이스관리시스템)나 빅데이터 시스템 등 성능을 측정하는 벤치마크인 TPC-DS 기반으로 스노우플레이크와 비용을 비교한 장표를 꺼내들었다.

데이터브릭스에 따르면 TPC-DS 3TB(테라바이트) 기준으로 외부 파케이(parquet) 포맷 테이블에 대한 총 실행 비용에서 데이터브릭스는 8달러, 스노우플레이크는 243.19달러의 결과가 나타났다. 스노우플레이크 각 제품과 비교를 위한 TPC-DS 10TB 로드·실행 비용 테스트에서 데이터브릭스는 76달러, 스노우플레이크의 스탠더드버전은 248달러, 엔터프라이즈버전은 386달러를 기록했다.

디아고스티노 CTO는 "스노우플레이크 측도 우리가 낸 논문에 대응하면서 비교적 저비용인 스탠더드버전을 거론하는데, 기업에선 단일 데이터 거버넌스와 보안 등을 고려해 엔터프라이즈버전을 택할 수밖에 없을 것"이라며 "데이터브릭스가 데이터 워크로드 처리 전문성과 분산컴퓨팅 경험 등에서 크게 앞서있기에 이런 차이가 난다. 우리는 고객 TCO(총소유비용) 절감을 돕는 것을 목표한다"고 설명했다.

그는 "데이터브릭스는 모든 데이터 형태의 처리를 지원하면서 그 속도도 중시해 개발됐다. 안정적인 성능과 보안 또한 확보될 수 있도록 했다"면서 "이제 데이터 기업들뿐 아니라 CSP(클라우드서비스제공사)를 비롯한 클라우드 업계 모두가 레이크하우스를 언급하며 우리 뒤를 따르고 있다. 우리가 그만큼 혁신을 거뒀고 기회를 만들었으며 고객사 TCO을 절감시켰다는 증거"라고 강조했다.

이번 행사에서 데이터브릭스는 자사 오픈소스 AI모델 '돌리(Dolly)'의 업그레이드 버전인 '돌리 2.0'도 공개했다. 세계 최초 오픈소스 명령어 추종 LLM(대형언어모델)으로, 연구나 상업적 용도로 사용 가능한 명령어 학습 데이터셋 미세조정을 통해 구현했다는 게 회사의 설명이다. 내부 직원들로부터 크라우드 소싱된 고품질 명령어 추종 데이터셋을 미세조정, 일루더AI(EleutherAI)의 피티아(Pythia) 모델군 기반 120억개 파라미터 모델을 사용했다.

한편 이번 행사에서는 G마켓, 이마트24, 데브시스터즈, 한화, 메조미디어, 잡코리아, 핀다, 위버스컴퍼니, 무신사 등도 참여해 데이터브릭스 경험을 발표했다. 데이터와 AI를 활용해 업계를 혁신하는 각 조직의 데이터 팀을 선정하는 '2023 코리아 데이터+AI 어워즈'도 함께 진행됐다.

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?