[미디어 혁신가] "기사 3000만건 분석 빅카인즈.. IBM보다 2년 앞서"

신성헌 기자 2016. 8. 10. 14:02
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

뉴스 빅데이터 분석 시스템 '빅카인즈' 기획한 박대민 언론재단 연구위원기사 3000만건 분석… 독자, 뉴스 소비자에서 분석가로

뉴스 빅데이터 분석 시스템 '빅카인즈'를 기획한 박대민 언론재단 연구위원 /신성헌 기자

미국의 스포츠 데이터 분석 업체인 '그레이스노트(Gracenote)'는 지난 3월 미 MIT 슬론경영대학원이 개최한 '스포츠 분석 콘퍼런스'에서 국가별 리우올림픽 예상 메달 개수를 발표했다. 그레이스노트는 빅데이터를 활용, 아시아 국가들이 최근 25년간 하계 올림픽에서 따낸 메달 수가 12.6% 늘었고 이번 대회에서 전체 메달 수의 4분의 1가량을 획득할 것이라고 전망했다. 예상 메달 개수는 중국이 81개, 일본이 39개, 한국이 25개다.

앞서 2014년 브라질월드컵에서 우승한 독일 축구 대표팀은 빅데이터를 활용한 전술로 주목을 받았다. 당시 독일 코치진은 자국 빅데이터 분석 회사인 SAP와 협력해 선수들의 슈팅과 평균 공 점유 시간을 분석했다. 빠른 축구를 구사한 독일팀은 데이터를 활용해 공 점유 시간을 평균 3.4초에서 1.1초로 대폭 줄였고, 브라질과의 4강전을 앞두고는 상대팀 모든 선수의 2년치 동선을 분석하기도 했다.

빅데이터를 활용해 조직 전략을 새로 짜는 사례가 늘고 있다. 스포츠 분야뿐 아니라 산업 전반에 해당되는 얘기다. 언론 분야에는 올해 상반기 주목할 만한 성과가 있었다. 바로 지난 4월 19일 한국언론진흥재단(이하 언론재단)이 공개한 뉴스 빅데이터 분석 시스템 '빅카인즈(Big Kinds)'다.

빅카인즈는 언론재단이 앞서 1990년에 구축한 신문기사 데이터베이스인 카인즈(KINDS·Korean Integrated News Database System)에 빅데이터 분석 기술을 접목한 뉴스 분석 시스템이다. 카인즈에는 지난 26년간 축적된 기사 3000만건이 있다.

빅카인즈는 뉴스 키워드와 관련된 인물, 장소, 조직의 관계망을 분석해주는 서비스다. 기존 카인즈의 기능이 뉴스 저장에 그쳤다면, 빅카인즈는 뉴스를 재가공이 가능한 데이터로 만들어 제공한다.

언론재단 미디어연구센터 연구팀은 빅카인즈 공개와 동시에 뉴스 빅데이터 분석 전문보고서(NAI·News Big Data Analytics & Insights)를 창간했다. 연구팀은 창간호에서 1990년부터 2015년까지 26년간 나온 기사 150만건의 정보원과 인용문 주제를 분석했다.

빅카인즈는 어떤 계기로 만들어졌을까. 지난 7월 1일과 5일 두 차례, NAI 책임 연구를 맡은 박대민(39) 언론재단 선임연구위원을 만나 자세한 개발 과정을 물었다.

-주요 연구 분야는?

"대외적으로는 뉴스 빅데이터 분석으로 알려져 있는데 사실 주 연구 분야는 경제 저널리즘과 경제 문화다. 금융 문화 연구, 양적완화 담론 분석, 알고리즘을 이용한 뉴스의 시각화를 주제로 한 논문을 여러 편 썼다. 구글의 학술 정보 검색 서비스 스칼라에서 검색하면 볼 수 있다."

-몸담고 있는 한국언론진흥재단 미디어연구센터는 어떤 곳인가.

"미디어연구센터는 언론 정책과 시스템 알고리즘 연구를 주로 하고, 최근엔 디지털 혁신 분야를 강화했다. 센터는 연구팀과 조사분석팀으로 나뉜다. 나는 2014년 8월 언론재단에 입사해 현재 연구팀에 있다. 조사분석팀은 주로 각종 신문 연감, 잡지 연감을 만든다."

빅카인즈 웹사이트(http://www.kinds.or.kr/) 첫 화면

-자세한 빅카인즈 서비스 설명에 앞서, 빅데이터란 무엇인지 이야기해달라.

"저장 용량으로 따지면 일반적으로 10테라바이트(TB) 이상일 때 빅데이터로 간주되지만 컴퓨터 성능 향상에 따라 그 기준은 계속 높아지고 있다. 뉴스 빅데이터는 비정형 데이터를 자연어 처리, 영상 처리, 의미연결망 분석을 통해 인명, 기관, 수치, 인용문 등 정형화된 메타데이터로 추출한 결과물이다."

빅데이터에 대한 부연 설명을 위해 이 분야의 권위자 빅토어 마이어 쇤베르거 (Viktor Mayer Schonberger) 영국 옥스퍼드대 교수의 저서 '빅데이터가 만드는 세상'을 참조했다. 그는 본문에서 빅데이터의 속성에 대해 이렇게 설명한다.

'빅데이터의 핵심은 예측에 있다. 혹자는 빅데이터를 인공지능이라는 컴퓨터 과학의 분과로 설명하거나 기계 학습(machine learning)이라는 분야의 일부로 설명하지만 이런 식의 설명은 핵심을 오도하는 측면이 있다. 빅데이터의 핵심은 컴퓨터가 인간처럼 '생각'하도록 '가르치려는' 데 있지 않다. 빅데이터는 엄청난 양의 데이터에 수학을 적용해 확률을 추론하려는 노력이다. 어느 이메일이 스팸 메일일 가능성, 무단횡단 중인 사람의 궤도와 속도로 보아 그 사람이 제때 길을 건널 가능성, 무인 자동차가 속도를 살짝 늦춰야 할 가능성 같은 것들 말이다.'

-빅카인즈 개발 과정을 알려달라.

"2013년 서울대학교 언론정보학과 박사 과정 중 빅카인즈의 모태가 되는 '뉴스소스 베타' 시스템을 만들었다. 내 역할은 시스템 총괄 기획이었다. 이후 언론재단이 자연어 처리와 의미 연결망 분석 기능이 강화된 빅카인즈를 올해 4월 19일 공개했다. 분석 시스템은 솔트룩스라는 자연어 처리 전문 업체가 만들었다."

◆ 빅카인즈, 키워드 관계도·중요 정보원 등 각종 데이터 분석

-빅카인즈 서비스를 자세히 설명하자면.

"빅카인즈는 일반인 버전과 전문가 버전으로 나뉜다. 일반인 버전은 뉴스 빅데이터 분석 결과를 시각화된 화면으로 제공한다. 뉴스 속에 등장한 인물, 기관, 장소, 키워드가 분리돼 그들 사이의 관계도가 형성된다.

전문가 버전인 '빅카인즈-프로'는 기자, 학자 등을 대상으로 제공된다. 전문가가 직접 심층 뉴스 분석 데이터를 만들고 다운로드할 수 있는 서비스다. 일반인용 서비스와 구별되는 가장 큰 특징은 택사노미(Taxonomy) 관리 기능이다. 택사노미란 단어 간 분류 체계를 갖춘 일종의 단어 사전이다. 전문가용 서비스는 올해 시범 기간에는 무료로 제공되고, 차후 유료화될 계획이다.

이밖에 뉴스 속에서 어떤 인물이 중요 정보원인지를 보여주는 '정보원 분석' 서비스도 제공된다. 빅카인즈는 뉴스 데이터에 분석 가치를 부여하는 서비스다."

기자가 직접 빅카인즈 웹페이지에서 '김영란법'이라는 키워드로 빅카인즈 분석을 해봤다. 인물, 장소, 조직별 연관 키워드로 구성된 관계도가 형성됐다. '우윤근' '국회 정무위원회' '국민권익위원회' 같은 키워드가 보인다.

◆ 정형화된 빅데이터 활용…"언론사, 기술 기반 IT 기업 될 것"

-빅카인즈 서비스의 타깃 독자층은?

"언론사가 첫 번째 대상이다. 언론학자, 정치학자, 경영학자도 주요 타깃이다. 그다음이 변호사, 컨설턴트, 회계사다. 빅카인즈가 제공하는 데이터는 기자들에겐 데이터 저널리즘의 재료, 변호사들에겐 변론문, 컨설턴트에겐 보고서가 될 수 있다."

-독자와 생산자 모두를 위한 서비스라는 설명인데, 어떤 취지로 만들었나.

"빅카인즈는 언론사와 독자, 모두가 활용할 수 있는 데이터를 제공한다. 언론사는 플랫폼 경쟁력도 높일 수 있다. 플랫폼 경쟁에서 가장 중요한 것 중 하나는 하나의 콘텐츠가 다양한 플랫폼에서 얼마나 자유자재로 변용될 수 있는가 하는 점이다. 언론사들이 정형화된 빅데이터를 활용해, 기술 기반의 IT 회사가 되는 게 빅카인즈 서비스의 목표 중 하나다.

덧붙여 뉴스 소비자에 머물렀던 독자들은 빅카인즈의 데이터를 활용해 뉴스 분석가가 될 수 있다."

-뉴스 빅데이터 분석 방법이 궁금하다.

"뉴스 빅데이터 분석은 자연어 처리와 의미 연결망 분석으로 구성된다. 자연어 처리는 크게 네 단계를 거친다. 형태소 분석, 구문 분석, 의미 분석, 담론 분석 순이다. 형태소란 언어의 의미를 부여하는 최소 단위다. 형태소 분석은 문장을 분해 가능한 최소한의 단위로 분리하는 작업이다.

구문 분석은 문장의 위계 관계를 분석해 구조를 결정하는 과정이다. 의미 분석은 가령 한국은행을 한은이라고 표기한 걸 파악하는 작업이다. 담론 분석은 거시적인, 시장을 구성하는 논리 등을 파악하는 과정이다. 담론 분석이 가장 어렵다.

의미 연결망 분석의 핵심은 정보원의 순위를 매기는 알고리즘이다. 기사에서 가장 중요한 사람, 기관, 주제, 문장 등 이런 걸 찾는 작업이다."

-언론재단 미디어연구센터 연구팀은 빅카인즈 공개와 동시에 뉴스 빅데이터 분석 전문보고서(NAI)를 창간했다. 보고서의 주요 내용을 설명해달라.

IBM의 '뉴스 익스플로어' 웹사이트에서 'facebook'을 검색하자 관련 기사 100건, 관련 인물 98명이 나왔다.

"1990년부터 26년간 매체에 따라서는 기사가 18배 정도 급증했다. 종이신문의 지면 수가 늘고, 인터넷 신문 등 매체 수도 많아진 게 가장 큰 이유다. 그러나 기사당 정보원 수와 주제 수는 감소했다. 기사는 많이 쓰지만, 그만큼 정보원이나 주제를 발굴하진 못한 탓이다.

경제면의 주요 주제는 1998년 외환위기와 2008년 금융위기를 계기로 급변했다. 1990년대엔 '중소기업', 외환위기 이후 3년간은 '구조조정', 이후 '미국' 주제가 중심이 됐고, 금융위기 후 '중국'과 '소비자'가 부각됐다.

◆ 빅카인즈 모태인 '뉴스소스 베타' 2013년 개발…IBM은 2015년 '뉴스 익스플로어' 내놔

-빅카인즈와 비슷한 사례가 있나.

"IBM이 2015년 7월 공개한 '뉴스 익스플로어(News Explorer)' 서비스가 있다. IBM의 이 서비스는 인공지능으로 유명한 왓슨(Watson)을 기반으로 만들어졌다. 뉴스뿐만 아니라 논문도 분석한다.

-빅카인즈를 통해 편향된 정보원 인용을 분석할 수 있다고 보고서에 적었다.

"지난 26년간 가장 중요한 정보원을 분석한 결과 경제면의 경우 대부분의 시기에 재정과 금융 관료 조직이 중시됐다. 다만 2000년대 초중반엔 주식, 부동산 투자 등 재테크 관련 애널리스트가 부각됐다."

-뉴스 빅데이터 분석 시스템은 앞으로 어떻게 발전할까.

"미디어연구센터 연구팀은 텍스트뿐 아니라 동영상 데이터도 분석하는 방안을 연구하고 있다. 영상 처리는 텍스트보다 어려운 단계다. 뉴스가 텍스트, 라디오가 음성, TV가 동영상이면, 각각 콘텐츠마다 자연어 처리, 음성 인식, 영상 처리 기능이 있다."

[미디어 혁신가] 관련 기사한운희 기자 "기사 한 꼭지 위해 데이터 수만개 분석" <2016.07.16> 데이터 분석가 추천, 데이터 저널리즘 관련서 10選 <2016.07.16> 아웃스탠딩 "독자가 원하면 기사체도 버린다" <2016.06.11> 윤지영 대표 "아마존도 샤오미도, 오가닉 미디어" <2016.05.21> "스티븐스, 기자들에게 경고…단순 보도로는 생존 어려워" <2016.02.22> "진지한 뉴스는 이제 안 봐…할리우드서 배워라" <2015.11.28> "2015년 전자책 시장 분수령 될 수도" <2015.01.02>

- Copyrights ⓒ 조선비즈 & ChosunBiz.com, 무단 전재 및 재배포 금지 -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?