버스 왜 안 오는 걸까?… 통계학 관점서 보면[곽재식의 안드로메다 서점]
곽재식 숭실사이버대 환경안전공학과 교수 2023. 4. 22. 03:03
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
설문조사나 여론조사 결과를 해설하는 상황을 상상해 보자.
내용을 보니 5000명 정도는 조사해야 믿을 만한 결과가 나올 것 같다.
그냥 쉽게 "설문조사한 숫자가 너무 적다" 또는 통계학 용어를 써 "표본의 수가 적다"고 말하면 된다.
잘 몰랐다가 조금만 알게 되면 갑자기 세상 모든 것이 다르게 보일 만한 지식으로 이런 생활 통계학 지식만 한 것이 없다.
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
일상 생활-산업 전반에 얽힌
데이터 과학 친근하게 풀어내
◇데이터과학자의 사고법/김용대 지음/396쪽·1만6000원·김영사
데이터 과학 친근하게 풀어내
◇데이터과학자의 사고법/김용대 지음/396쪽·1만6000원·김영사
설문조사나 여론조사 결과를 해설하는 상황을 상상해 보자. 내용을 보니 5000명 정도는 조사해야 믿을 만한 결과가 나올 것 같다. 그런데 이번 설문조사는 300명밖에 조사하지 않고 결과를 냈다. 이런 상황을 두고 혹자는 “모수가 너무 작아서 믿을 수 없다” 혹은 “모집단이 너무 작아서 믿을 수 없다”고 말한다.
그러나 이런 문제는 사실 ‘모수’와는 별 상관이 없다. 모수는 상당히 난해한 용어로 통계학자들이 ‘모집단의 특성을 나타내는 수치’라는 뜻으로 쓰는 말이다. 다른 수학 분야에서는 흔히 매개변수라고 하는 ‘parameter’를 번역한 말이다. 아마도 어감이 어쩐지 ‘분모에 들어가는 수’와 비슷한 느낌이 들어 모수라는 단어를 쓰게 되는 것 아닐까 싶다. 그러나 이런 어려운 말을 굳이 잘못 사용하면서 틀릴 이유가 없다. 그냥 쉽게 “설문조사한 숫자가 너무 적다” 또는 통계학 용어를 써 “표본의 수가 적다”고 말하면 된다. ‘모집단’이라는 말 역시 관찰의 대상이 되는 집단 전체를 뜻하는 것이어서 앞서와 같은 뜻으로 쓰면 옳지 않다. 최근에도 모수, 모집단이란 단어를 이렇게 엉뚱하게 사용하는 사례를 찾기가 어렵지 않다. 통계 자료를 활용해서 일해야 하는 사람이나 설문조사 내용을 파악하는 것이 중요한 직업을 가진 사람들조차 이런 어이없는 실수를 하는 경우가 흔하다. 이런 실수는 통계학이 대단히 중요하게 자주 활용되는 세상에서 우리가 얼마나 그 세부 내용에 대해 별 관심이 없는지를 보여주는 증거처럼 느껴지기도 한다.
서울대 통계학과의 김용대 교수가 쓴 책 ‘데이터 과학자의 사고법’은 이런 사회에서 누구든 한 번쯤 관심을 가져 볼 만한 책이 아닌가 싶다. 이 책은 요즘 유행하는 데이터 과학이란 분야를 중심에 두고 통계학에서 우리 생활과 밀접하게 연결된 부분부터 빅데이터를 거쳐 인공지능(AI)의 바탕이 되는 데이터 산업의 미래에 대한 지식까지 한데 엮어 설명한다.
왜 버스를 기다릴 때는 항상 표시된 배차 간격보다 더 오래 기다리는 것 같은가 하는, 얼핏 통계학과 전혀 관계가 없을 것 같은 이야기를 친근감 있게 늘어놓는다. 정치판을 들썩이게 하기도 하고 정책을 다룰 때 국민적 관심사가 되기도 하는 여론조사의 세부 사항을 다루기도 한다. 제약 업계에서 엔터테인먼트 업계까지 산업의 발전이 얼마나 통계학과 자료 분석에 매달리는지 등의 사례를 보고 있으면 통계학을 모르고 살면 안 되겠다는 생각이 절로 든다.
잘 몰랐다가 조금만 알게 되면 갑자기 세상 모든 것이 다르게 보일 만한 지식으로 이런 생활 통계학 지식만 한 것이 없다. 혹시 아직까지도 이와 같은 통계학 책에 대한 경험이 전혀 없다면 이 책 외에도 잘 알려진 통계학, 확률에 대한 교양서적을 뭐든 한 권 읽어 보시기를 추천한다. 예를 들어 좀 더 가볍게 현장 업무의 느낌을 알고 싶다면 만화가 곁들여진 ‘데이터 분석가의 숫자유감’(골든래빗) 같은 책도 읽을 만하다.
그러나 이런 문제는 사실 ‘모수’와는 별 상관이 없다. 모수는 상당히 난해한 용어로 통계학자들이 ‘모집단의 특성을 나타내는 수치’라는 뜻으로 쓰는 말이다. 다른 수학 분야에서는 흔히 매개변수라고 하는 ‘parameter’를 번역한 말이다. 아마도 어감이 어쩐지 ‘분모에 들어가는 수’와 비슷한 느낌이 들어 모수라는 단어를 쓰게 되는 것 아닐까 싶다. 그러나 이런 어려운 말을 굳이 잘못 사용하면서 틀릴 이유가 없다. 그냥 쉽게 “설문조사한 숫자가 너무 적다” 또는 통계학 용어를 써 “표본의 수가 적다”고 말하면 된다. ‘모집단’이라는 말 역시 관찰의 대상이 되는 집단 전체를 뜻하는 것이어서 앞서와 같은 뜻으로 쓰면 옳지 않다. 최근에도 모수, 모집단이란 단어를 이렇게 엉뚱하게 사용하는 사례를 찾기가 어렵지 않다. 통계 자료를 활용해서 일해야 하는 사람이나 설문조사 내용을 파악하는 것이 중요한 직업을 가진 사람들조차 이런 어이없는 실수를 하는 경우가 흔하다. 이런 실수는 통계학이 대단히 중요하게 자주 활용되는 세상에서 우리가 얼마나 그 세부 내용에 대해 별 관심이 없는지를 보여주는 증거처럼 느껴지기도 한다.
서울대 통계학과의 김용대 교수가 쓴 책 ‘데이터 과학자의 사고법’은 이런 사회에서 누구든 한 번쯤 관심을 가져 볼 만한 책이 아닌가 싶다. 이 책은 요즘 유행하는 데이터 과학이란 분야를 중심에 두고 통계학에서 우리 생활과 밀접하게 연결된 부분부터 빅데이터를 거쳐 인공지능(AI)의 바탕이 되는 데이터 산업의 미래에 대한 지식까지 한데 엮어 설명한다.
왜 버스를 기다릴 때는 항상 표시된 배차 간격보다 더 오래 기다리는 것 같은가 하는, 얼핏 통계학과 전혀 관계가 없을 것 같은 이야기를 친근감 있게 늘어놓는다. 정치판을 들썩이게 하기도 하고 정책을 다룰 때 국민적 관심사가 되기도 하는 여론조사의 세부 사항을 다루기도 한다. 제약 업계에서 엔터테인먼트 업계까지 산업의 발전이 얼마나 통계학과 자료 분석에 매달리는지 등의 사례를 보고 있으면 통계학을 모르고 살면 안 되겠다는 생각이 절로 든다.
잘 몰랐다가 조금만 알게 되면 갑자기 세상 모든 것이 다르게 보일 만한 지식으로 이런 생활 통계학 지식만 한 것이 없다. 혹시 아직까지도 이와 같은 통계학 책에 대한 경험이 전혀 없다면 이 책 외에도 잘 알려진 통계학, 확률에 대한 교양서적을 뭐든 한 권 읽어 보시기를 추천한다. 예를 들어 좀 더 가볍게 현장 업무의 느낌을 알고 싶다면 만화가 곁들여진 ‘데이터 분석가의 숫자유감’(골든래빗) 같은 책도 읽을 만하다.
곽재식 숭실사이버대 환경안전공학과 교수
Copyright © 동아일보. 무단전재 및 재배포 금지.
이 기사에 대해 어떻게 생각하시나요?
동아일보에서 직접 확인하세요. 해당 언론사로 이동합니다.
- ‘민주당 돈봉투 의혹’ 강래구 구속영장 기각…급물살 타던 수사 제동
- “도쿄 근처 전통가옥을 3천만 원에 샀어요”… 빈집 느는 日[횡설수설/박중현]
- 中 “대만문제 불장난땐 타죽어”…러 “무기공급은 적대행위”
- 尹 “우크라 지원, 일반론적 얘기”…이재명 “국회동의 입법 추진”
- LH, 전세사기 주택 매입…피해자에 시세 30~50% 임대
- 여야, 전세사기 피해자 ‘우선매수권’ 27일 처리 미지수
- 소외된 환자를 떠나지 않았던 위대한 의사… ‘바로 우리展’에서 만나는 이종욱·이태석
- “의원에게도 네이버 비판은 난제…가두리 방식 영업으로 업계 황폐화”
- 들쑥날쑥 최저임금 인상… 예측 가능한 결정체계 필요하다[사설]
- 오이 섭취했더니…몸이 이렇게 달라졌다