미국 선거여론조사는 이렇게 다르다

[서의곤의 여론조사 제대로 읽기]
트럼프 등장후 고민에 빠진 여론조사
'샤이 트럼프 가설'은 실제 검증됐나
opt-in 온라인 조사업체 크게 늘어
우리도 다양한 여론조사법 허용해야
당선자 예측보다 더 중요한 것은?

미국에서 대선이 얼마 남지 않은 만큼, 선거 여론 조사가 활발하고 언론들의 관심도 많다. 우리나라에서는 선거여론조사 결과와 선거 이후 실제 득표율의 차이를 갖고 의견이 분분하지만, 미국에서도 2016년과 2020년 선거, 특히 2020년 대선 여론조사 결과가 실제와 달랐기에 지금도 원인과 배경이 이슈가 되고 있는 것 같다.

선거예측 조사결과가 실제 결과와 다를 수 있다고는 하지만, 여론조사에 대해 공공의 신뢰를 얻는 것은 매우 중요한 일이다. 선거 외에도 대중의 의견을 파악하는 것이 민주주의 절차에서 매우 중요하기 때문이다. 대표적인 미국 여론조사 업체 중 하나인 퓨 리서치(Pew Research)는 올해 대선 여론 조사를 볼 때 고려해야 할 몇 가지 점들을 정리한 기사를 게재하였는데 이 내용들을 살펴보며 통찰을 얻고자 한다.(주- 원문은 다음 링크에서 확인할 수 있다. Key things to know about election polls in the U.S.)

지난달 중순까지의 미 대선 여론조사 추이. 사진=연합뉴스

두 배 늘어난 여론조사 업체들

먼저, 미국에서는 선거조사 결과를 공표하는 업체 숫자가 두 배 가량 늘었다고 한다. 2000년대에는 선거 결과를 발표하는 기관이 약 30개 정도였는데, 지금은 전체 숫자가 60개 이상이다. 전체 숫자만 늘어난 것이 아니라, 약 15년 전까지는 무작위 전화번호를 이용한 전화조사가 대부분이었는데 지금은 무작위 전화번호를 이용하는 곳은 네 군데에 지나지 않으며 절반 가량은 '자발적 참여 기반(opt-in)'의 온라인 조사라고 한다.

'자발적 참여 기반 온라인 조사'는 사전에 조사에 동의한 “패널”들을 대상으로 하는 조사로, 국내에도 이런 패널을 제공하는 업체들이 여럿 있다. 이런 방식의 온라인 조사는 확률 기반 표본 추출의 원칙에 어긋난다. 처음부터 패널 회사의 목록에 들어있는 사람들만이 대상이 되기 때문이다. 그러나 기존의 전화면접 등 전통적 방식에 비해 비용이 훨씬 저렴하고, 따라서 비용이 저렴해진 탓에 조사결과 발표업체의 수가 늘어났다는 분석도 았다. 다만 온라인 조사를 하는 업체수는 늘어났지만, Pew Research는 여전히 전통적 조사 방법을 선호하는 회사 중 하나로, 확률표본추출을 이용한 조사 결과들이 더 정확한 추이를 보여주는 것은 확실하다고 주장한다.

미 선거여론조사도 자주 틀렸다

미국 선거조사도 2016년과 2020년에 많이 틀렸다고 한다. 2016년의 경우 전국조사 결과는 준수한 성적을 보였지만 각 주별 조사는 많이 틀렸다고 한다. 그리고 2020년은 전국조사도 틀렸는데, 구체적으로 바이든이 4% 가까이 크게 이기는 것으로 예측했으나 실제로는 박빙이었다는 것이다.(주- 2020년의 경우 바이든이 트럼프보다 3.9% 더 많이 득표할 것을 예측하였는데, 실제로는 과거에 더 크게 틀린 경우가 많이 있다. 단순히 두 후보의 최종 전국 득표율 결과 뿐만 아니라 주 단위 분석, 상원의원 선거 등 종합적인 결과를 바탕으로 지난 40년간 가장 크게 틀린 해라고 설명한다.) 반면 2022년 중간선거는 비교적 정확히 예측하였다고 한다.

다소 재미있는 분석으로, 지난 20년간의 선거여론조사를 보면 도널드 트럼프가 후보로 나오는 선거는 예측이 많이 틀린 반면, 트럼프가 없는 다른 선거들은 대체로 정확히 예측했다고 한다.

여기서 “샤이”론이 등장하여 “샤이 트럼프 효과” 가설이 제시되었는데, 즉 트럼프 지지자들이 여론조사에서 트럼프를 지지한다는 의견을 잘 피력하지 않으려 했다는 것이다. 그런데 이후의 연구들에서 이 가설은 폐기되었다. 즉 “샤이 트럼프 효과”를 지지하는 증거가 발견되지 않았다.

미 대선이 한달 여 앞으로 다가왔다. 카멀라 해리스 민주당 후보(왼쪽)와 도널드 트럼프 후보.

곤혹스런 '샤이 트럼프 가설'

샤이 유권자 가설 대신 유권자들의 실제 투표율에 관한 가설이 있는데, 트럼프 지지자들은 중간 선거에서는 투표를 잘 하지 않는 반면 트럼프가 직접 나서는 대선에서는 투표장에 잘 나간다는 가설이다. 여론조사 응답자가 실제로 투표를 할 것인지 아닌지는 누구를 지지하는지를 예측하는 것보다 훨씬 어렵다. 따라서 여론조사회사들은 응답자들이 다음 선거에서 투표하러 나갈지 안 나갈지를 예측할 때 과거 선거에 참여하였는지 아닌지를 기준으로 판단을 하게 되는데, 트럼프 지지자들이 위에서 설명한 것과 같은 일관된 성향을 갖고 있으면 실제 대선에서 트럼프는 예상보다 더 많은 표를 얻게 된다.

또다른 가설로는 트럼프 시대의 공화당원들은 여론조사에 잘 답을 하지 않는다는 가설이다.(주- 이것을 “샤이 공화당원”이라 부를 수 있을지는 모르겠는데 기사 원문에서는 여론조사 자체에 참여하지 않는 것과, 여론조사에는 참여하되 누구를 지지하는지를 밝히지 않는 것을 명확히 구분하고 있다.) 그러나 이는 과거 경험들을 바탕으로 판단할 때 가능성이 별로 없다고 한다. 즉 공화당 지지자나 민주당 지지자나 여론조사에 참여하는 비율에는 별 차이가 없었다는 의미이다.

훨씬 복잡한 '가중치 부여방식'

관심을 가져야 할 사항 중 하나로 '가중치 부여'가 있다. 한국에서는 기본적으로 지역, 성, 연령의 3개 변수를 기준으로 가중치를 주어서 전체 유권자 모집단을 예측하려 한다. 미국에서는 보통 8개에서 12개의 변수를 기준으로 가중치를 준다고 한다.(주- 가중치에 관심있는 분이라면 8개나 12개의 변수가 되면 가중치를 계산할 셀의 숫자가 너무 많아지기 때문에 가능할까 하는 의문을 가질 수 있다. 그러나 각각의 변수 기준으로 가중치를 주면서 반복 계산을 하는 Rim weighting 이란 기법이 있다.) 아무래도 미국의 유권자들이 한국보다는 더 다양한 사람들이 있다 보니 투표 성향에 영향을 줄 변수들도 많을 것이다. 기본적으로 인종이 포함되어야 하고, 대학 졸업 여부 등이 한국보다 더 크게 영향을 줄 수도 있다.

오차에 관한 내용이 있는데, 여론조사의 실제 오차는 표집오차(sampling error)보다 약 두 배로 계산해야 한다는 의견이다. 조사 결과의 오차는 표집오차와 비표집오차(non-sampling error)로 구분할 수 있는데, 표집오차는 우연히 어느 특정 후보 지지자가 더 많이 조사에 포함될 확률을 얘기하는 것으로 숫자로 나오는 오차는 모두 이 표집오차로, 이론적 추정값이다. 반면 비표집오차는 계산을 할 수가 없어서 오차 범위에 포함되지 않는다. 원문에서는 세 가지 대표적인 비표집오차를 제시하고 있는데 특정 집단이 조사에 포함되지 않거나, 특정 집단의 응답률이 낮거나, 질문을 제대로 이해하지 못하고 답을 틀리게 하는 경우 등이 그것이다.

그 외 충격적인 큰 일이 있을 경우 지지율이 크게 변동할 가능성이 있고, 어느 한 후보가 큰 차이로 이길 것이 예상될 경우 그 후보 지지자들이 투표를 하지 않는 경향이 많다거나, 전국 지지율과 선거인단 결과가 다르다든가 하는 점을 얘기한다.

전국 지지율과 선거인단 결과와의 차이는 두번 있었다. 2000년과 2016년의 선거에서 앨 고어와 힐러리 클린턴은 부시와 트럼프 후보에 비해 전국 조사에서 더 높은 지지율이 나왔으나 실제 선거에서는 패배했다. 이는 선거인단이란 미국 대선 제도에 의한 것이다. 인구가 적어도 최소 선거인단 숫자가 3인인데, 인구가 적은 주들에 대체로 공화당 지지자가 많아 실제 전국 인구 기준 지지율보다 선거인단 숫자에서 공화당 후보가 더 많이 득표하였을 것이란 가정이다.

가설을 검증하는 미국 여론조사업체들

사실 이 글에서 언급하는 내용들은 크게 새로울 것도 없고, 한 번 쯤은 들어본 내용들이다. 한국의 여론조사 전문가들도 일상적으로 고민하는 내용일 것이다. 다만 한국과 차이가 있다면 여러 가설에 대해 실증적 검증이 이루어지고 있다는 점이다.

대표적인 것이 '샤이-트럼프 효과'인데, 이런 가설은 누구나 세울 수 있으나 과연 실제로 그런 효과가 있었는지 없었는지 이후 연구가 되었다. 국내에서 여론조사 결과가 틀리면 이유라고 말하지만 사실은 핑계로 샤이-진보나 샤이-보수를 언급하는데, 여론에 대해 과학적 접근을 하자는 여론조사가 실체가 확인되지 않은 가설적 존재를 마치 실체인 것처럼 이유로 제시하는 것은 과학적으로 보이지 않는다.

당선예측과 국민의 관심사 중 뭐가 중한디?

한국에서는 공표하는 여론조사는 여론조사심의위원회에서 정한 기준을 따라 실시해야 한다. 조사 방법을 무작위 추출 전화 조사(ARS포함)로 제한한다든가 하고 있다. 반면 미국에서는 절반 정도의 업체들이 opt-in 온라인 기법을 사용하는데, 정확성이 무작위표본추출만큼 정확할 것으로 예상되지는 않는다. 그렇다 하더라도 독자들이 결과를 스스로 판단할 수 있는 여유를 주는 것도 나쁘지 않다고 생각한다. 더 다양한 여론조사 방법을 허용하고, 그 결과를 얼마나 믿을지 판단은 독자 스스로 하게 하는 것이다.

또 하나 생각해 볼 것은, 원문 글에서도 있지만, 누가 몇 %를 득표할 것인가보다 국민들이 무엇에 관심이 있고 무엇을 원하는지를 알아야 하고 이를 정치인이나 언론이 더 관심을 가져야 한다는 주장이다. 정치인이나 정당은 지금 무엇을 해야할 지를 판단하여 국민에게 제시하고, 최선을 다한 후 결과를 기다리라는 한자성어(進人事待天命)에 따라야 하지 않을까. 누가 당선될 것인가를 예측하는 것에 비해 국민들의 관심사가 무엇인지를 아는 것은, 오차 범위가 훨씬 커도 된다. 5% 차이가 나는 건 결론을 내리는 데 별 문제가 되지 않는다. 조사 결과보다는 국민에게 집중하자.


서의곤은 사람을 이해하는 기업 BRiO의 대표다. 서울대 심리학 석사, 영국 맨체스터 비지니스 석사(MBA)로 국내, 글로벌 조사회사에서 근무했다. 소비재 패널 조사방식을 국내에 첫 도입했고, 1996년 15대총선 당시 국내 최초로 선거 결과조사에 참여했다. 한국환경정책평가연구원 등 공공기관 조사프로젝트를 수행했다.