[베이스볼 비키니] 야구와 피타고라스의 만남

황규인 동아일보 기자 kini@donga.com 2017. 8. 2. 14:53
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

피타고라스 승률로 예측한 프로야구 순위..3~5위 서울 연고 3팀 가능성 높아

[주간동아]

말 그대로 자고 일어나면 바뀌는 게 요즘 한국 프로야구 순위입니다. 7월 21일과 24일 팀 순위를 비교해보겠습니다.

1, 2, 7, 10위를 빼고 6개 팀이 자리를 바꿨습니다. 자리를 바꾸지 않은 팀도 10위 kt 위즈를 빼면 저마다 사정이 있습니다. 1위 KIA 타이거즈는 안방 3연전을 7위 롯데 자이언츠에게 모두 내줬습니다. 반면 2위 NC 다이노스는 6연승을 내달렸습니다. 그 결과 KIA와 NC는 4경기 차로 줄어들었습니다. 롯데는 3연승을 발판 삼아 45승2무45패로 정확히 승률 5할을 맞췄습니다. 이제 롯데는 3위 두산 베어스에게도 3.5경기밖에 뒤지지 않은 상태입니다. 그래서 프로야구 순위 예측은 어렵습니다.

피타고라스에게 묻다

이럴 때는 피타고라스에게 물어보는 것이 좋습니다. 네, a²+b²=c²이라는'피타고라스 정리'로 유명한 고대 그리스 수학자 맞습니다. 야구에서는'피타고라스 승률'이라는 녀석을 씁니다. 세이버메트릭스(야구통계학)의 아버지라 해도 과언이 아닌 빌 제임스가 1982년 처음 제안한 피타고라스 승률은 기본적으로'승률=득점²÷(득점²+실점²)'으로 계산합니다. 이 공식이 피타고라스 정리와 비슷하다 해서 이런 이름이 붙었습니다.

그 후 세월이 흐르면서 지수를 얼마로 쓰는 게 맞는지 갑론을박이 있었습니다. 제임스는 1.83을 써야 예측력을 높일 수 있다고 주장했습니다. 무승부가 있는 한국 프로야구에서는 1.82를 쓰는 게 맞는다는 연구 결과도 있습니다.

이번에는 로그(log)함수를 써서 지수를 정할 겁니다. 이 방식은 팀마다 다른 지수를 활용하는 것이 가능해 오차(평균제곱오차)를 줄이는 데 도움이 될 수 있습니다. 만에 하나 궁금한 분이 계실까 봐 밝히면'지수=1.50×log((득점+실점)÷경기 수)+0.45'입니다.

이 공식은 성적을 얼마나 잘 예측할까요. 이장택 단국대 교수가 2015년'한국데이터정보과학회지'에 쓴 논문'한국프로야구에서의 피타고리스 정리의 정확도 측정'에 따르면 2005~2014년 프로야구에서 피타고라스 승률은 실제 승률과 대략적으로 평균 1.95%밖에 차이가 나지 않습니다.

이 공식이 성적을 비교적 정확히 예측할 수 있는 이유는 야구가 상대 팀보다 한 점이라도 점수를 더 따내면 이기는 스포츠이기 때문입니다. 강팀은 더 많은 점수 차이로 더 많은 경기를 이길 겁니다. 그러면 득점과 실점 차이도 커지겠죠. 실제로 현재 1위 KIA는 득점이 실점보다 151점 많지만(605득점·454실점), 최하위 kt는 거꾸로 실점이 득점보다 164점 많습니다(377득점·541실점).

물론 이 이론이 현실과 100% 맞아떨어지는 건 아닙니다. 특히 시즌 중반에는 더욱 그렇습니다. 역시 이 교수가 지난해 같은 학회지에 실은 논문'야구 피타고라스 승률의 수렴특성'에 따르면 경기 진행률이 70% 이상일 때 피타고라스 승률과 실제 승률에서 통계적으로 유의한 차이가 발생하지 않았습니다.

현재 경기 진행률은 63.1%로 이 교수가 정한 기준보다 부족한 상태. 그래도 스포츠는 통계학이 아니니까 현재 피타고라스 승률을'크리스털 볼' 삼아 올해 최종 순위를 예측해보도록 하겠습니다.

NC, 실제 승률이 피타고라스 승률보다 높아

2017 KBO 정규리그 우승이 유력한 KIA 타이거즈.[스포츠동아]
피타고라스 승률은 크게 두 가지로 활용할 수 있습니다. 하나는 과거를 진단하는 것. 피타고라스 승률보다 실제 승률이 높은 팀은 효율적으로 경기를 운영했다고 볼 수 있습니다. 이를 뒤집어 생각하면 이런 팀은 앞으로 성적이 내려갈 확률이 높다고 가정할 수 있습니다.'효율'이라고 부르는 많은 부분에는'운'이 섞여 있기 때문입니다. 이렇게 미래를 예측하는 게 바로 두 번째 활용법입니다. 

현재는 NC가 실제 승률(0.607)이 피타고라스 승률(0.540)보다 높은 첫 번째 팀입니다(표 참조). 이 교수는 2015년 논문에서'실제 승률이 피타고라스 승률보다 커지는 경우는 게임당 실점의 표준편차와 변동계수가 큰 경우로 나타났다. 이 사실을 상식적인 선상에서 설명하면 실제 승률이 기대 승률보다 높은 현상은 대개 불펜이 강한 팀에서 나타날 가능성이 많(다)'고 썼습니다.

실제로 NC 구원투수들은 이날까지 평균 자책점 4.17로 1위를 기록 중입니다. 결국 NC가 KIA를 물리치고 창단 첫 정규리그 우승을 차지하려면 구원투수진이 지금처럼 버텨주는 게 제일 중요합니다. 불펜이 흔들리면 피타고라스 승률에 따라 실제 성적도 내려갈 확률이 큽니다.

거꾸로 LG 트윈스는 피타고라스 승률은 0.566으로 3위인데, 실제 승률은 0.523으로 6위에 머물러 있는 상태입니다. 이 경우 LG가 순위를 끌어올릴 수 있으리라는 예상이 가능합니다. LG 구원투수들의 평균 자책점이 4.46으로 NC에 이어 두 번째로 좋은 점을 감안하면 더욱 그렇습니다. 지금까지 경기가 비효율적으로 흘러간 데는'불운'이 잦았던 점도 무시할 수 없다는 뜻입니다.

LG와'잠실 라이벌'인 두산도 지금보다 성적이 오를 가능성이 있는 팀입니다. 두산 구원투수진 역시 평균 자책점 4.88로 3위에 이름을 올린 상태입니다. 게다가 외국인 투수 마이클 보우덴(31)이 아직 정상 컨디션이 아니라는 점까지 감안하면 향후 성적이 올라갈 수 있습니다.

한화 이글스는 실제 승률(0.400)과 피타고라스 승률(0.444) 차이가 LG보다 더 큽니다. 한화는 4~6회에 평균 자책점 5.93으로 10개 구단 가운데 최하위에 그쳤습니다. 경기 중반에 점수를 많이 내주다 보니 구원투수를 조기에 투입하는 일이 많았고 경기 후반에 힘이 달릴 수밖에 없었습니다.

만약 피타고라스 승률에 따라 LG가 남은 경기를 마친다면 32승25패를 더해 최종 승률은 0.540이 됩니다. 같은 방식으로 계산하면 NC는 그래도 0.581입니다.

그래서 저는 KIA가 무난히 정규리그 우승을 차지할 것으로 예상합니다. 이미'벌어둔 게' 제일 많은 팀이니까요. NC는 2위. 주전 선수 부상 같은 악재가 없다면 두산과 LG가 3, 4위 싸움을 벌일 것으로 전망됩니다. 마지막 가을야구 티켓은 넥센이 차지할 확률이 높습니다.

틀리면 어떡할 거냐고요? 그러면 예측과 달라 프로야구를 더 짜릿하게 즐겼다고 답하겠습니다. 야구 통계는 비키니처럼 많은 걸 보여주지만 전부 보여주지는 않으니까요.

황규인 동아일보 기자 kini@donga.com

▶ 주간동아 최신호 보기/매거진D 공식 페이스북
▶ 시사잡지 기자들이 만드는 신개념 뉴스

Copyright © 주간동아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?