데이터 분석의 패러다임을 바꾼다 '그래프DB'(그래프 데이터베이스)

이선희 2019. 7. 10. 18:03
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(이 글은 그래프DB 전문기업 비트나인의 도움으로 작성했습니다)

[써니의 발로 쓰는 IT-1] ◆2.6테라바이트 문건을 분석한 비결은

2016년 세상에 드러난 '파나마 페이퍼'. 글로벌 조세 회피 내역을 담은 기밀문서 '파나마 페이퍼'에는 각국 전·현직 정치인과 리오넬 메시 등 스포츠·문화계 스타들의 세금 탈루 정황이 고스란히 담겨 있어 충격을 안겨줬습니다. 이 '파나마 페이퍼'가 보도된 덕분에 전 세계 22개국의 세무 당국이 12억달러(약 1조3600억원) 이상의 벌금과 체납 세금을 거둬들였다고 하는데요. 이 보고서는 그동안 전 세계에서 교묘하게 벌어진 세금탈루를 정확하게 분석해 주목을 받았습니다.

특히 보고서를 분석한 국제탐사보도언론인협회(ICIJ)가 사용한 기법이 관심을 모았습니다. 탐사보도언론인협회는 2.6테라바이트(TB)에 육박하는 1150만건 문서를 확보했는데요, 여기에는 이메일, PDF, 이미지파일 등 종류가 다양해서 이를 기존 DB분석 기법으로 들여다보면 수십 년이 소요될 판국이었습니다. 이때 탐사보도협회가 사용한 방식이 '그래프 데이터베이스(그래프DB)'입니다. 탐사협회는 데이터 간 관계를 파악하는 그래프 데이터베이스 업체와 함께 자료를 분석해 '파나마 페이퍼'를 완성했습니다. 각 데이터의 '관계'까지 데이터 분석 요소로 삼아 사람과 기관, 회사의 관계를 분석하고 자금 흐름을 추적해 조세회피 근거를 명확히 규명할 수 있었습니다.

파나마 페이퍼는 그래프DB 기술을 활용해 사람과 기관, 회사의 관계를 분석하고 자금의 흐름을 추적했습니다

◆'관계'까지 파악하는 그래프DB

빅데이터가 부상하면서 주목받는 기술이 그래프DB입니다. 기존 데이터 분석이 세로와 가로줄 테이블 형식으로 입력된 데이터를 파악하는 1차적인 방식이라면, 그래프 데이터베이스는 각 데이터 간 상관관계, 중요도, 패턴을 분석해 좀 더 정교한 결론을 도출하는 솔루션입니다. 시장조사기관 마켓앤마켓은 그래프DB 시장이 2023년까지 24억달러(약 2조7000억원) 규모로 성장할 것으로 예측하고 있습니다. 넷플릭스 영화추천, 아마존 상품추천에 쓰인 기술이기도 합니다.

'관계'까지 DB화한다는 것이 무슨 뜻일까요. 예를 들어 '홍길동 24세 남자 고객이 모자를 주문했다'를 기존 DB로 표현한다면 데이터가 단선적으로 입력됩니다. 이름칸에 '홍길동', 나이칸에 '24', 성별 '남자', 상품 '모자'와 같은 식이 되겠지요. 그러나 그래프DB를 사용하면 '홍길동'과 '모자' 사이에 '구입하다'라는 관계가 형성됩니다. '구입했다'는 행위도 하나의 DB로 저장돼서 다른 정보들과 연관이 된다는 것이지요.

그래프DB의 개념도

이렇게 '관계'를 데이터로 저장할 수 있으면 홍길동 씨의 구매 내역, SNS상 활동, 홍길동 친구의 구매내역까지 무한하게 데이터를 확장할 수 있게 되고, 이들의 관계를 그래프로 표현할 수 있게 됩니다. 특히 요즘 데이터는 급속히 증가하고 SNS, 웹사이트, 모바일 등 여러 플랫폼에서 동시다발적으로 이동하고 있습니다. 이미지와 같은 비정형 데이터와 관계까지 분석할 수 있는 그래프 데이터베이스가 복잡한 네트워크 구조의 데이터에 대한 수진 관리 분석이 필요한 분야에 최적화 솔루션으로 주목받는 이유입니다.

그래프DB의 구현 예
그래프DB 플랫폼에 데이터를 입력하면 기존 DB로는 엑셀같은 표가 나타나지만 그래프DB에서는 데이터간 관계를 알수 있는 이미지가 나타납니다.

◆인텔, 교원도 쓰는 그래프DB

그래프DB는 산업 곳곳으로 확장되고 있습니다. 국내 그래프DB 기술 스타트업 비트나인에 따르면, 공공기관 교육기관 금융사 등이 그래프DB를 적용했거나 도입을 준비 중입니다. 이 회사는 데이터 통합, 그래프 변환, 데이터 관리와 분석을 지원하는 그래프 데이터베이스 솔루션 '아젠스그래프'를 제공하고 있습니다.

인텔은 지난해 내부 테스트를 통해 비트나인의 아젠스그래프를 검증해 인텔 데이터센터(IDC)의 효율적인 구축 및 관리를 위한 하드웨어 어플라이언스 솔루션인 Intel RSD(Rack Scale Design)에 메인 데이터베이스로 적용을 준비하고 있습니다.

인텔의 고민은 데이터센터 내 수많은 서버가 돌아가는데 장애가 발생할 때 유기적으로 연관된 '원인'을 파악할 수 없다는 점이었습니다. 한쪽 서버에서 문제를 일으키면 다른 쪽에도 영향을 미치는데 이러한 관계를 선제적으로 파악해서 장애를 예방하려는 니즈가 있었습니다.

그래프 데이터베이스는 데이터센터에서 계층별 로그 데이터를 분석해 연관관계를 그래프로 연결하고 이상 경로를 파악해 사전 장애를 예방하는 데 쓰이고 있습니다. 또한 각 데이터센터의 데이터 관계를 그래프로(한눈에) 볼 수 있기 때문에 문제가 발생했을 때 원인을 직관적으로 파악하기 쉽고 장애 대응 시간을 단축시키는 효과가 있습니다.

교육기업 교원은 비트나인의 '아젠스 그래프' 기술을 도입해 개인 맞춤형 인공지능 서비스를 제공하고 있습니다. 단계별 유기적인 학습 체계를 구축하고 학습 수준, 성향, 학습 경로 등을 파악하는 데 그래프 데이터베이스 기술을 사용하고 있습니다. 예를 들어 나눗셈과 곱셈을 못 뗀 학생에게 도형의 넓이를 알려줄 수 없듯이, 단계별 내용을 유기적으로 파악해 학생들에게 맞춤형 학습을 제공하는 방식입니다.

교원이 적용한 그래프데이터베이스 기반 커리큘럼

◆명확한 목적 설정이 중요

그 외에도 비트나인은 연구논문 시스템, 쇼핑몰 상품 추천, 가상화폐 이상 거래 탐지 등에 그래프DB가 쓰이고 있다고 합니다. 기업이 협업과 성과관리 시스템으로 그래프DB를 도입한 사례도 있습니다. 각 구성원들의 협업 관계와 성과 지표를 관리하는 시스템으로 조직 관리 효율성을 높였다고 하네요.

그러나 이처럼 뛰어난 기술도 문제의 목적이 명확하지 않다면 소용이 없습니다. 그래프DB를 도입하려는 기업은 무엇을 분석하고 싶은지, 어떤 문제를 해결하고 싶은지, 무엇을 알고 싶은지가 명확해야 합니다. 비트나인 관계자는 "무엇을 알고 싶은지, 이를 통해 무엇을 개선하고 싶은지 명확해야 원하는 결과를 얻을 수 있다"면서 "빅데이터 시대 기업 스스로 '문제'를 명확히 하는 태도가 성패를 좌우한다"고 강조합니다.

[이선희 모바일부 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?