[논설실의 서가] 통계 없이 진실을 말하기 어렵다

이규화 2021. 3. 3. 19:46
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

데이터는 우리 일상에 깊숙이 들어와 있지만 여전히 낯설다.

데이터는 우리 주위에 공기처럼 존재한다.

저자 김범준은 서울대 통계학과 및 데이터사이언스대학원 데이터사이언스학과 교수다.

지난 2019년 국제이론통계학회의 펠로로 선정됐고 2020년부터 한국데이터마이닝학회장을 맡고 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

데이터과학자의 사고법 김범준 지음/김영사 펴냄

데이터는 우리 일상에 깊숙이 들어와 있지만 여전히 낯설다. 책은 데이터를 어떻게 해석하고 활용해야 하는지 사례를 통해 알기 쉽게 설명한다. 나아가 우리가 어떤 선택의 기로에서 주관적 감에 의존하지 않고 합리적으로 판단할 수 있는 통계학적 사고법도 알려준다.

데이터를 합리적으로 해석하고 이해하면 세상사에 대한 이해의 폭을 넓힐 수 있다. 데이터과학에는 '길이 편이 조사'(length biased sampling)라는 게 있다. 일상에서 흔히 접하는 데이터의 오독이다. 대표적인 길이 편이 조사로는 정부가 발표하는 소비자물가지수와 실제로 느끼는 장바구니물가의 차이가 있다. 정부 통계는 물가가 안 올랐는데, 장바구니 물가는 항상 빠르게 오른다. 그 이유는 정부통계는 조사 대상 전체 상품의 가격을 조사하는 데 비해 장바구니통계는 구입한 상품의 가격을 바탕으로 나타나기 때문이다. 당연히 사람들이 구매하는 인기 상품은 가격이 오르고 소비자가 체감하는 물가는 높은 것이다.

이런 원리는 시민을 상대로 조사를 하면 혼잡한 버스를 이용한 시민이 뽑힐 확률이 높은 것과 같은 이치다. 왜냐하면 혼잡한 버스는 혼잡하지 않은 버스에 비해 많은 사람이 탑승하기 때문이다. 100대의 버스가 운행하는데 1대에 100명이 타고 나머지 99대에는 한 명도 타지 않은 경우와 100대에 한 명씩 탑승하는 경우 모두 평균탑승 인원은 1명이다. 일상에서 데이터에 대한 이해가 없으면 왜곡된 인식을 갖게 되고 불신을 키울 수도 있다.

데이터는 우리 주위에 공기처럼 존재한다. 일기예보는 데이터과학의 산물이다. 교통량 예측, 쇼핑몰의 관심 상품 노출, 선거 여론조사, 주가지수, 아파트 가격 동향 등도 모두 데이터과학의 결과물이다. 데이터과학을 이해하면 합리적 소비생활 뿐 아니라 다양한 영역에서 보다 나은 의사결정을 할 수 있다. 통계로 거짓말 하긴 쉬워도 통계 없이 진실을 말하긴 어려운 것이다.

저자 김범준은 서울대 통계학과 및 데이터사이언스대학원 데이터사이언스학과 교수다. 2002년 전기전자학회(IEEE) 데이터마이닝 학술대회 최우수상 등 수많은 데이터과학 관련 상을 수상했다. 지난 2019년 국제이론통계학회의 펠로로 선정됐고 2020년부터 한국데이터마이닝학회장을 맡고 있다.

이규화 논설실장

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?