[주말N수학] 오스카 수상을 수학 모형으로 예측한 야구 분석가
○ 오스카 수상 예측 비결
“The Oscar goes to Yuh-Jung Yoon!(오스카 수상자는 윤여정입니다!)”
2021년 4월 25일 세계적인 영화 시상식, ‘미국 아카데미상(오스카)’에 여우조연상을 시상하러 나온 브래드 피트는 위와 같이 외쳤다.
이로써 영화 ‘미나리’에서 ‘순자’ 역을 맡은 배우 윤여정이 한국 배우 최초로 오스카를 거머쥐었다. 세계 각지에서 이미 37개의 상을 탄 그는 진작부터 오스카 트로피의 주인이 될 거라는 기대를 받고 있었다. 하지만 후보들이 모두 쟁쟁했기에 긴장을 늦출 수 없었다.
한편 미국의 한 집에서도 TV 앞에서 숨죽여 수상자 발표를 기다리는 사람이 있었다. 바로 야구 분석가 벤 자우즈머다. 시상식 하루 전날 벤은 윤 배우의 수상 확률은 61.6%로, 후보 중에서 가장 높다고 미국 연예 전문 매체인 ‘더 할리우드 리포터’에 발표했다. 윤여정이라는 이름이 불리자 자신의 예측이 틀리지 않았다고 안도하며 맘껏 기뻐했다.
벤은 미국 하버드대 응용수학과를 졸업하고, 미국 프로야구 팀인 ‘LA 다저스’를 거쳐 현재는 ‘뉴욕 메츠’에서 야구 분석가로 일하고 있다. 벤이 야구 외에 가장 관심 있는 건 바로 영화! 그중에서도 오스카다. 오스카를 향한 열렬한 팬심이 그를 수상자 예측으로 이끌었다.
첫 시작은 2012년 대학교 1학년 때였다. 벤은 오스카 시상식을 앞두고 누가 상을 받을지 기대에 부풀어 있었다. 통계 자료를 분석해 야구에서 우승팀을, 선거에서 당선인을 예측하는 것처럼 누군가는 이미 어느 후보가 수상할지 예측했을 거라고 생각했다.
하지만 아무리 인터넷을 뒤져봐도 오스카 수상 예측에 관한 이야기는 없었다. 응용수학과 학생이던 벤은 본인이 직접 해보기로 결심했다. 한 달 내내 도서관에 출석하며 방대한 자료를 모아 오스카 수상 예측 모형을 만들었다.
첫 시도치고 꽤 성공적인 결과가 나왔다. 20개 중 15개 부문에서 예측이 들어맞은 것이다. 2017년과 2021년에는 단 하나를 제외한 모든 부분에서 적중했다. 올해는 작품상을 포함해 14개 부문에서 예측을 성공했다. 지금까지 열두 해 동안 예측한 오스카 수상 적중률은 77%나 된다.
아쉽게도 현재 소속된 야구팀과의 기밀 유지 계약 때문에 야구 분석에 관한 이야기는 풀지 못했지만, 대신 벤의 오스카 수상 예측 비결을 숨김 없이 공개한다.
○ 2023 오스카 예측 결과
벤은 2023 오스카 시상식에서 가장 영예로운 상인 작품상을 포함해 총 14개 부문의 수상 예측에 성공했다. 7개의 상을 휩쓴 ‘에브리씽 에브리웨어 올 앳 원스(에에올)’를 예시로 벤이 얼마나 수상 예측에 성공했는지 한눈에 살펴보자.
○ 오스카 수상 예측 성공률 77% 달성 비결
Q. 응용수학을 전공하게 된 이유가 있나요.
"아주 어렸을 때부터 항상 수학을 좋아했어요. 특히 하버드대학교 응용수학과는 다른 전공보다 다양성을 허용한다는 점에서 마음에 들었어요. 수학과 통계학뿐만 아니라 경제학, 물리학, 컴퓨터 과학, 심지어 행정학 수업까지 전공 수업으로 인정받을 수 있거든요."
Q. 처음 오스카 수상을 예측하는 모형을 만들 때 어려움은 없었나요.
"가장 큰 어려움은 자료 수집이었어요. 제가 필요로 하는 모든 내용을 포함하는 정리된 데이터베이스가 없었어요. 그래서 저는 오랫동안 옛날 영화와 과거 시상식을 조사하고, 저만의 데이터베이스를 정리하는 데 시간을 썼어요."
Q. 초기 모형은 어떻게 만들었나요.
"저는 소위 말하는 ‘Kitchen Sink Approach’(씽크대 접근법)으로 모형을 만들기 시작해요. 가능한 한 많은 데이터를 수집하고, 모든 데이터를 모형에 적용해서 무엇이 적합한지 확인하는 방법이에요.
2012년 처음 초기 모형을 만들 때는 수치 해석 프로그램인 ‘매트랩’을 사용했어요. 그 이후로는 통계 프로그래밍 언어인 ‘R’과 프로그래밍 언어인 ‘파이썬’을 함께 사용했지요. 데이터는 CSV 파일과 엑셀 문서에 저장했어요."
Q. 수상자 혹은 수상작을 예측하는 방법을 알려주세요.
"먼저 오스카에 관한 30년 분량의 자료를 모았어요. 일반적으로 예측 모형에서 가장 중요한 정보는 오스카 시상식 전에 열리는 여러 시상식에서의 수상 여부예요. 오스카 부문마다 수상에 영향을 미치는 시상식이 다 달라요. 통계적 방법을 사용해서 각 데이터가 해당 부문과 얼마나 연관됐는지 확인해요. 연관성이 높은 예측 변수는 더 많은 가중치를 갖지요. 가중치를 적용한 모형으로 각 후보가 그 부문에서 수상할 확률을 계산합니다."
Q. 오스카 시상식에서 가장 영예로운 상인 작품상 수상작을 예측할 때 가장 중요한 요소는 뭔가요.
"모든 부문에서 그전에 어떤 상을 받았는지가 가장 강력한 예측 변수예요. 영국 아카데미 시상식, 골든 글로브상 등이 중요한 자료지요. 작품상 수상작은 미국 감독 조합상(Directors Guild of America Award) 수상작과 일치하는 경향이 있어서 조합상을 받은 후보가 높은 가중치를 받게 돼요."
Q. 수상을 예측하기 어려운 상황이 있나요.
"물론이죠. 제가 만든 모형은 미래에 일어날 사건의 가장 좋은 지표가 과거 사건이라는 일반적인 개념에 의존해요. 그래서 예측 변수가 일관성이 없이 계속 변화한다면 예측하기 어려워요."
Q. 매년 예측 모형을 수정하나요.
"모형의 기본 원리는 항상 동일해요. 하지만 매년 예측을 개선할 방법이 없는지 알아보기 위해 과거에 했던 모든 가정을 되짚어봐요. 그럼에도 정확도는 매년 오르락내리락하며, 꾸준히 오르거나 내려가는 패턴은 없어요.
가장 수상 확률이 높다고 예측한 후보가 한 부문을 제외한 모든 부문에서 수상하는 해가 있는가 하면, 예측이 기대만큼 잘 들어맞지 않는 해도 있었어요. 모든 것이 확률 게임이기 때문에, 어느 해에 얼마나 적중할지 확실히 말하기는 어려워요."
Q. 본업은 야구 분석가인데, 가장 좋아하는 것은 뭔가요.
"저의 주된 관심사는 야구예요. 제가 관심 있는 야구 관련 일을 하게 돼서 매우 운이 좋다고 생각해요. 하지만 영화도 정말 좋아해요. 야구 시즌이 아닐 때는 오스카를 예측하는 일이 저의 가장 재밌는 취미지요."
Q. 야구와 영화 이외에 또 다른 무언가를 예측하는 모형을 만들 계획이 있나요.
"미국 브로드웨이 최고의 연극과 뮤지컬에 주어지는 ‘토니상’을 예측하는 작업도 잠깐 했었어요. 하지만 현재는 그 외에 다른 계획은 없어요! 통계 모형을 구축하는 건 야구와 오스카 둘로 충분하다고 생각해요."
Q. 2015년에 오스카를 어떻게 예측하고 그 속에 어떤 수학이 있는지를 자세히 담은 '오스카 메트릭스'을 출간했는데요. 하버드 잡지 인터뷰에서 “이 책을 통해 수학이 딱딱하고 어려운 과목이 아니라 매혹적이고 재미있다는 것을 보여주고 싶다”고 한 말이 인상적이었어요. 아직도 그렇게 생각하세요.
"물론입니다. '오스카 메트릭스'를 쓴 주된 목적은 제가 정말 좋아하는 오스카에 사랑하는 수학을 적용할 수 있음을 공유하기 위해서예요. 수학에 대한 저의 사랑이 다른 사람에게도 전해져서 다른 관심사에 적용된다면 책을 쓴 보람을 느낄 것 같아요."
※관련기사
수학동아 5월, [Data Math] 오스카 수상을 수학 모형으로 예측한 야구 분석가
[김진화 기자 evolution@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.