<지식카페>베스트셀러 판매 '8주 半減期'.. 지수함수 속에 답있네



김범준의 과학 이야기 - ⑧ 책의 반감기와 지니계수
몇 달 전 책을 냈다. 판매 순위가 어떻게 되는지 궁금해 온라인 서점들을 간혹 방문하고는 했다. 온라인 서점 중 인터파크는 단지 판매 순위뿐 아니라 팔린 책이 몇 권이나 되는지, 일간, 주간, 월간 판매량을 보여준다. 과학 분야의 꾸준한 스테디셀러가 어떤 책인지도 알 수 있었고, 또 새로 출판된 책이 시간이 지나면 조금씩 판매량이 줄어든다는 것도 알게 되었다. 반감기라는 말이 있다. 방사성 동위원소의 양이 절반이 될 때까지 얼마나 긴 시간이 걸리는지를 일컫는 단어다. 책에도 반감기가 있을까.
연구그룹의 대학원생 김기범 군의 도움으로 인터파크에서 공개한 여러 책들의 일 년 동안의 주간 책 판매량 자료를 모았다. 시간이 지나면서 어떻게 판매량이 줄어드는지를 보고자 책의 출판일이 일 년 전인 2014년 11월 이후인 책들만을 모았다. 판매 순위가 상위여서 온라인 서점에서 판매량을 볼 수 있으면서, 출판일이 일 년이 채 안 된 책들이 소설 분야에는 모두 62종, 그리고 과학 분야에는 39종 있었다. 요즈음 유행하는 빅데이터에 해당할 정도로 엄청난 양의 자료는 아니다. 그래도 이 정도의 자료를 가지고도 어느 정도 흥미 있는 결과를 얻을 수 있었다. 책에도 반감기가 있을까. 소설과 과학책은 반감기가 다를까.
먼저 62종의 소설책을 1년간의 판매량을 기준으로 상위와 하위 절반으로 나눠, 두 그룹에 대해서 주간판매량의 시간에 따른 변화의 평균 그래프를 그려 보았다. 62종의 소설책 중 판매량이 많았던 상위 절반의 최상위 그룹의 책들은 출판 후 시간이 지나면 주간 판매량이 늘어나다가 출판 후 4∼5주 정도가 되면 판매량이 가장 많아지고, 시간이 더 지나면 조금씩 판매량이 줄어든다. 한편 전체 62개 소설 중 아래의 절반(사실 이 책들도 1년간 출판되었던 책 중 판매량 상위 62위 내에 들었으니 상당히 많이 팔린 베스트셀러들이다)에 대해 평균을 내서 그래프를 그려보면, 이들 소설 분야 차상위 그룹의 베스트셀러들은 출판 후 2∼3주 만에 판매량이 최대가 되고 이후에는 계속 판매량이 줄어든다. 39종의 과학책도 마찬가지 방법으로 주간 평균 판매량의 시간에 따른 변화의 모습을 그래프로 그려보았다. 분석에 이용된 과학책의 수가 소설보다 작아 과학책은 상위와 하위의 두 그룹으로 나눠 분석하지는 않았다. 1년 안에 출판된 과학책 중 한 권은 독보적으로 판매량이 아주 많아서(필자의 책은 아니다. 무척 부럽다.) 이 책은 평균 그래프를 얻을 때 넣지 않았다. 과학책들의 초기 판매량은 최상위 그룹 소설들에 비해서도 그리고 차상위 그룹 소설들에 비해서도 확연히 작았다. 모은 데이터를 이용해 계산해 보니 최상위 그룹 소설의 전체 판매량 평균값은 2148권, 차상위 그룹 소설은 357권, 과학 분야 책의 평균 전체 판매량은 255권이었다. 어림잡아 대충 얘기하면 우리나라에서 소설 분야 상위 30개 정도의 책의 판매량은 과학 분야 상위 30개 정도의 책에 비해 거의 열 배 가까이 더 많이 팔린다는 뜻이다.
같은 자료를 이용해서 판매량이 최대가 된 시점으로부터 판매량이 최댓값의 절반이 될 때까지의 시간인 반감기를 구해볼 수도 있다. 사실 ‘반감기’라는 개념이 의미가 있기 위해서는, 예를 들어 100의 양이 50으로 절반이 될 때까지의 시간이나 다시 50이 25로 절반이 되는 시간, 또 25가 12.5로 또 절반이 되는 시간이 모두 같아야 한다. 이렇게 절반씩 계속 줄어드는 시간이 일정하려면 값이 줄어드는 꼴을 수학적으로 표현하는 함수의 모양이 지수함수여야 한다. 더 자세히 이야기해보자. 처음의 양을 1이라고 하고, 시간 t가 지나면서 그 양이 줄어드는 꼴이 일정한 반감기 T를 가지면 주어진 양은 의 꼴로 적힌다. 이 식에서, t+Τ면 처음의 1/2이 되고 t=2Τ면 1/4이 되므로 t가 Τ, 2Τ, 3Τ…로 늘어나면 1/2, 1/4, 1/8의 형태로 계속 절반씩 줄어들게 되기 때문이다. 책의 반감기를 구하는 것이 의미가 있으려면, 이처럼 판매량이 지수함수의 꼴을 따라 시간이 지나면서 줄어들어야 한다. 실제의 자료를 이용해 그래프를 그려보니, 소설과 과학 분야의 베스트셀러들의 판매량이 시간이 지나면서 근사적으로는 정말로 지수함수의 꼴로 줄어든다는 것을 알 수 있었다. 일단 지수함수의 꼴로 줄어드는 그래프를 얻으면 반감기를 구하는 것도 어렵지 않다. 판매량의 시간 변화의 실제 데이터가 의 꼴에 가장 잘 맞도록 Τ를 결정하면 된다.(보통 최소제곱법이라 불리는 방법을 쓴다.)
위의 방법을 따라 시간에 따른 판매량의 변화 그래프를 이용해 실제로 책들의 반감기를 구해보았다. 판매량이 많은 최상위 그룹의 소설들은 반감기가 약 8주, 그보다 판매량이 적은 차상위 그룹 소설의 반감기는 약 4주가 된다는 것을 알 수 있었다. 따라서 아주 많은 사람이 구매하는 소설은 최대 판매량에 도달할 때까지의 시간도 두 배 길고, 그리고 판매량이 줄어드는 반감기도 두 배다. 물론 판매량은 두 배보다 훨씬 더 많다. 흥미롭게도 과학책의 반감기는 최상위 그룹 소설들과 같았다. 즉, 과학책의 반감기는 아주 잘 팔리는 소설책과 비슷하다. 과학책의 반감기가 차상위 그룹 소설들보다 상당히 길다는 것도 흥미롭다. 즉, 과학책들의 초기 판매량은 차상위 그룹 소설들에 비해서는 많이 작지만, 시간이 지나면 과학책의 판매량은 이 소설들보다 천천히 줄어, 결국 20주 정도에 이르면 오히려 차상위 그룹 소설들을 주간 판매량 면에서 앞서게 된다. 과학책은 소설보다 판매량은 적지만, 생명력은 길다고나 할까.
우리나라에서 출판되는 책들의 판매량의 반감기가 두 달이 채 못 된다는 결과로부터 대부분의 출판된 책들은 1년이 지나면 가장 많이 팔렸을 때에 비해 판매량이 1%에 불과하게 될 것이라는 예측도 가능하다. 이런 분석에서 주의해야 할 것은, 위의 결론이 출판된 책들의 ‘평균’에 대한 이야기라는 거다. 소수의 책들은 오랜 시간이 지나도 꾸준히 사랑받는 스테디셀러가 되기도 하지만 대부분의 책들은 1년이 채 못 되어 사람들의 기억에서 사라진다. 책들의 판매량은 어떻게 서로 다를까. 사람들의 연 소득의 분포나 기업들의 매출액의 분포를 구해보면 우리 사회의 일면에 대해 알 수 있다. 책들의 판매량의 분포도 마찬가지로 살펴보자.
인터파크 홈페이지에 공개된 소설과 과학 분야 책들에 대해서, 올해 1월 이후 11월 말까지의 모든 판매량 데이터를 내려받았다. 이제 이 데이터에는 책이 출판된 시점은 아주 오래전이지만 여전히 올해에도 사랑받은 책들도 다수 자료에 포함되게 된다. 주어진 양의 분포가 어떤 함수 꼴을 가지는지는 다양한 학문 분야에서 관심을 가지고 있는 주제다. 많은 독자들이 언론에서 이미 80-20 법칙이나 지니계수와 같은 말을 접했을 것이다. 먼저 80-20법칙이라는 말은 전체의 20%의 사람들이 80%의 부를 가지고 있다거나(이 경우 부의 20%는 80%의 사람이 나눠 가진다), 기업에서 만들어내는 이윤의 80%는 생산품목 중 20%에서 생긴다는 식으로 주로 설명된다. 만약 80-20 법칙이 아니라 분포가 90-10 법칙을 따른다면 이는 전체의 90%의 양이 10%라는 소수에게 모여 있으니, 분포가 더 불평등하다는 뜻이 된다. 분포의 불평등 정도를 하나의 숫자로 표현하기도 한다. 바로 지니계수다. 지니계수의 값이 크면 클수록 분포가 불평등하다고 이해하면 된다. 사실 필자와 같은 물리학자는 이처럼 숫자 하나로 표현하는 것보다는 분포함수의 함수의 꼴을 더 흥미 있어 한다. 80-20법칙에 해당하는 어떤 χ양의 분포함수의 모양은 Ρ(χ)∼χ- 2.2 정도가 되는데, 이 경우 지니계수를 구하면 0.76 정도로 불평등한 정도가 상당히 심한 경우에 해당한다. 책들의 판매량의 지니계수는 얼마나 될까.
과학 분야와 소설 분야 책들의 올해 판매량을 모아서 그 분포를 그려보니 둘 모두 Ρ(χ)∼χ- 2.8 의 꼴임을 볼 수 있었다. 분포함수의 꼴이 멱함수로 비슷하다는 것이지 소설과 과학의 판매량이 비슷하다는 말은 아니다. 과학 분야 판매량의 분포함수는 소설 분야 판매량의 분포함수보다 한참 왼쪽에 놓이는데, 당연히 과학책이 소설책보다 훨씬 덜 팔리기 때문이다. 과학책 하나하나의 판매량에 세 배를 곱하면 소설 판매량의 분포함수 위에 거의 겹쳐져 그려진다. 적게 팔리는 책들에 대해서는, 소설책이 셋 팔릴 때 과학책은 하나가 팔렸다는 뜻이다. Ρ(χ)∼χ- 2.8의 꼴을 이용해 계산해보면 우리나라 도서시장은 80-20 법칙이 아니라 64-36 법칙을 따른다는 이야기도 할 수 있다. 즉, 약 1/3의 책들이 전체 도서 총판매량의 2/3 정도를 차지한다는 말이다. 책의 판매량에 대해 지니계수를 구하면 그 값은 0.38이어서 우리나라 사람들의 소득의 지니계수인 0.43(2014년 추정치)보다는 작다. 책 판매량의 불평등도는 사람들의 소득의 불평등보다는 덜하다는 뜻이다. 사실 이 결론도 조심해서 받아들여져야 한다. 수많은 책들의 올해 판매량 모두를 자료로 이용할 수는 없어서 사실 위의 분석은 인터파크의 판매량 순위에 오른 책들만을 대상으로 한 것이다. 마치 소득이 일정액보다 많은 사람들만 모아서 지니계수를 구한 것에 해당하므로 자료가 더 많이 있다면 책 판매량의 지니계수도 좀 더 큰 값으로 변할 수도 있다.
필자가 낸 책의 판매량은 앞으로 어떻게 변할까. 우리나라 과학 분야 책 전체의 평균적인 추세를 따른다면 일 년 뒤 이맘때 인터파크에서 필자의 책은 일주일에 기껏 한 권 정도가 팔릴 것이다. 지금 같은 규모의 우리나라 과학책 시장에서, 책을 쓰는 것을 전업으로 하는 과학 저술가는 거의 생존이 불가능하다. 우리나라 대학에서 교수를 평가할 때는, 아무도 읽지 않을 지도 모르는 네 페이지 전문 학술 논문 한 편이 그 백배 길이의 베스트셀러 과학책에 비해 훨씬 더 높이 평가된다. 연구비를 받아 수행한 연구과제의 결과 평가에서도, 대중과학책의 저술은 전혀 도움이 되지 않는다. 평가자의 질문은 아마도 “시간이 아주 많으신가 봐요. 책을 다 쓰시고”라는 일종의 비난일 가능성이 더 크다. 과학 분야 교수가 대중을 위해 널리 읽힐 수 있는 책을 쓰는 것은 평가의 면에서만 보면 일종의 자학이다. 그래도 이런 이상한 과학자가 점점 늘어나는 이상한 분위기가 최근 보인다. 그 과학자 분에게는 안 된 일이지만 대중을 생각하면 참 바람직한 일이다. 더 훌륭한 과학책이 앞으로 더 많이 출판되려면, 지금이라도 독자가 시중의 과학책을 더 많이 사길 바란다. 꼭 필자의 책을 사달라는 이야기는 아니다. (문화일보 11월 11일자 24면 7회 참조)
성균관대 교수
[Copyrightⓒmunhwa.com '대한민국 오후를 여는 유일석간 문화일보' 무단 전재 및 재배포 금지(구독신청:02)3701-5555 / 모바일 웹:m.munhwa.com)]
Copyright © 문화일보. 무단전재 및 재배포 금지.