데이터 판 'docx vs pdf' 전쟁…AI 시대 표준 잡는 자가 미래 잡는다

박재현 기자 2026. 4. 18. 06:00
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[디지털데일리 박재현기자] 기업 데이터를 저장하고 관리하는 방식의 기술 표준, '아이스버그'와 '델타레이크'를 놓고 글로벌 IT 업계가 두 진영으로 나뉘어 맞붙고 있다.

아이스버그(Iceberg)는 방대한 데이터 처리 시 속도와 유연성이 뛰어나 여러 클라우드 서비스 간의 호환성을 중시하며, 델타레이크(Deltalake)는 데이터의 무결성과 보안을 강화해 기존 데이터 웨어하우스의 기능을 클라우드 데이터 레이크에 완벽히 구현하는 데 집중한다.

아이스버그 진영엔 AWS·스노우플레이크가, 델타레이크 진영엔 데이터브릭스가 있다. 표면적으로는 기술 규격 싸움이지만 실제로는 차세대 데이터 인프라 시장의 주도권을 둘러싼 생태계 전쟁이다.

싸움의 중심엔 ‘오픈 테이블 포맷’이라는 기술이 있다. 대규모 데이터를 클라우드에 저장할 때 어떤 형식으로 쌓고 읽을지를 정해놓은 규격이다. 마치 파일을 저장할 때 ‘docx’ 혹은 ‘pdf’를 고르는 것과 같이 선택에 따라 활용할 수 있는 도구와 서비스가 달라지는 것과 같다.

AI 시대에 중요성이 커진 건 AI 모델이 기업 내부 데이터를 활용하려면 데이터가 일관된 형식으로 정리돼 있어야 하기 때문이다. 포맷이 제각각이거나 특정 플랫폼에만 묶여 있으면 AI가 데이터를 제대로 읽지 못한다.

AWS·구글·스노우플레이크가 밀고 있는 건 ‘아파치 아이스버그’다. 넷플릭스가 개발해 오픈소스 재단에 기증한 아이스버그는 특정 회사에 종속되지 않는다는 게 최대 강점이다.

AWS는 자사 스토리지 서비스에 아이스버그를 공식 채택했고, 구글 클라우드도 지원을 강화하고 있다.

최근엔 오라클·컨플루언트·세일즈포스까지 지원을 추가하며 진영이 빠르게 넓어지고 있다. 어떤 클라우드, 어떤 분석 도구를 써도 같은 데이터를 일관되게 읽고 쓸 수 있는 운용성이라는 강점이 진영 확대를 견인하고 있다.

반격에 나선 데이터브릭스의 전략은 ‘흡수’다. 아이스버그 표준을 부분 수용하면서 자사의 델타레이크 생태계를 지키겠다는 전략이다.

데이터브릭스가 만든 ‘델타레이크’는 데이터브릭스 플랫폼과의 연동이 뛰어나 기존 고객 사이에서 여전히 강세다. 여기에 아이스버그 전문기업 타뷸러를 인수하고, 델타레이크를 아이스버그 클라이언트에서도 읽을 수 있게 해주는 ‘유니폼(UniForm)’ 기능을 추가했다.

다만 델타레이크 코어는 오픈소스지만, 데이터브릭스의 일부 관련 툴에 상업적 이용을 제한하는 조건이 걸려 있어 다른 도구와의 연결에서 걸림돌이 된다는 지적도 있다.

이러한 진영 대립은 국내 기업들에게 숙제를 던지고 있다. 특정 플랫폼에 데이터 포맷이 묶이면 나중에 다른 클라우드나 분석 도구로 전환할 때 데이터를 통째로 다시 옮겨야 하는 상황이 생길 수 있다.

아이스버그 기반으로 구축하면 AWS·구글·스노우플레이크 등 어떤 환경에서도 같은 데이터를 그대로 활용할 수 있다.

국내 SW 업계는 두 진영이 당분간 공존할 것으로 전망하고 있다. 여러 클라우드와 도구를 함께 쓰는 환경이라면 아이스버그가, 데이터브릭스 플랫폼을 이미 쓰고 있다면 델타레이크가 유리하다는 게 중론이다.

다만 선택을 미루는 것도 능사는 아니다.

한 국내 데이터 기업 관계자는 “AI 도입을 검토 중인 기업이라면 이제는 선택을 결정해야 한다”면서 “포맷을 전환하는 과정은 단순한 파일 변환 수준이 아니다. 연결된 파이프라인을 모두 멈추고 코드를 다시 짜야 하며 수개월의 엔지니어링 공수를 투입해야 한다. AI 도입을 추진하려는 기업일수록 플랫폼의 데이터 저장 포맷 개방성과 이식성을 따져봐야 한다”고 조언했다.

Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.