수능 표준점수는 정규분포서 나와..'내 위치' 잘 알아야 합격의 벨 [전문가의 세계 - 이종필의 과학자의 발상법 (11)]

이종필 교수 2020. 12. 24. 20:42
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

수능 점수와 정규분포

[경향신문]

원점수는 난이도 차이 반영 못해…보완책으로 표준점수 도입
정규분포는 평균과 표준편차로 내 점수의 상대적 위치 말해줘
등급도 수학 언어 ‘Z점수’로 이해 가능…백분위는 편의적 지표

대한민국이 매년 치르는 국가 대사를 꼽으라면 대학수학능력시험을 빼놓을 수 없다. 나는 30여년 전 학력고사를 보고 대학에 입학했다. 당시에는 그냥 학력고사 점수 하나만 중요했지만 지금은 원점수, 표준점수, 백분위, 등급 등 용어부터 많이 복잡하다.

수능 원점수란 말 그대로 수능을 보고 채점해서 나온 원래 점수를 말한다. 원점수는 내가 이번 시험에서 몇 점을 받았는지를 알려주지만, 전체 수험생 중에서 나의 위치를 알려주지는 못한다.

왜냐하면 해마다 시험 난이도가 다르기 때문이다. 이를 보완하기 위해 도입한 지표가 표준점수이다. 표준점수의 정확한 의미를 제대로 이해하려면 정규분포부터 알아야 한다.

정규분포란 간단히 말해 어떤 양이 종 모양의 좌우대칭으로 퍼져 있는 분포이다. 전국 성인 남성의 키라든지 영아의 몸무게 같은 양은 거의 정확하게 정규분포를 이룬다. 정규분포는 이 분포를 처음으로 자세하게 연구한 독일 수학자 카를 프리드리히 가우스의 이름을 따서 가우스분포라고도 한다.

수학적으로 정규분포는 연속적인 실수값에 대한 분포이고 현실의 수능 점수 분포는 불연속적인 수능 점수에 대한 분포이다. 현실의 분포를 이상적인 정규분포로 이해하겠다는 것은 이런 차이가 그리 중요하지 않아 무시할 수 있을 정도인 경우에 가능하다.

정규분포의 가장 눈에 띄는 특징은 한가운데 봉우리를 중심으로 데이터가 집중적으로 모여 있다는 사실이다. 봉우리에 해당하는 데이터값은 다름 아닌 전체 분포의 평균값(m이라 하자)이다. 즉, 정규분포에서는 데이터가 평균 근처에 집중적으로 모여 있고 평균에서 멀어질수록 급격하게 데이터 개수가 줄어든다. 그 줄어드는 정도가 ‘기하급수적’이라는 사실이 정규분포의 가장 중요한 특징이다.

수학적으로는 정규분포를 나타내는 곡선의 함수가 확률변수(데이터값)의 제곱에 대한 지수함수의 역수로 주어진다. 이 때문에 확률변수(데이터값)가 조금만 변해도 그 분포가 급격하게 줄어든다. 예컨대 통계청에서 공개한 2019년 기준 병역판정검사 현황을 보면 장정들의 평균 키는 173.8㎝이다. 이 값이 포함된 구간인 171~175㎝에 속하는 장정 수는 대략 10만명, 166~170㎝ 구간과 176~180㎝ 구간의 장정 수는 7만명대임에 반해 161~165㎝, 181~185㎝ 구간은 2만명대로 줄어들고 156~160㎝ 구간은 3000명대, 186~190㎝ 구간은 5000명대로 급격히 감소한다. 정규분포를 나타낼 때 각 데이터값에 해당하는 사람 수 대신 전체 사람 수로 나눈 값으로 표현하면 이는 곧 확률분포로 바뀐다. 이렇게 되면 예컨대 키 171~175㎝ 구간에 해당하는 분포는 10만여명이 아니라 33.6%로 바뀐다. 보통 정규분포를 표현할 때 이렇게 전체 데이터값으로 나눈 확률분포를 이용하면 훨씬 더 편리하다.

정규분포의 두 번째 중요한 특징은 이 분포의 성질이 오직 평균과 표준편차만으로 결정된다는 점이다. 표준편차는 분산의 제곱근에 해당하는 값으로 보통 그리스 문자 시그마(σ)로 나타낸다. 분산이란 각 데이터와 평균의 차이를 제곱한 양의 평균이다. 따라서 표준편차란 전체 데이터가 평균을 중심으로 얼마나 모여 있고 흩어져 있는지를 나타내는 지표이다. 정규분포에서 표준편차가 크면 종 모양이 평균을 중심으로 납작하게 퍼져 있고 표준편차가 작으면 종 모양이 좁게 나온다.

정규분포의 세 번째, 그리고 수학적으로 가장 중요한 특징은 표준편차와 관계가 있다. 정규분포는 일종의 확률분포이므로, 정규분포의 특정 구간에 속할 확률은 정규분포 곡선 아래의 해당 구간 넓이가 된다. 곡선 아래쪽의 넓이는 수학적으로 적분으로 계산한다. 마침 정규분포는 평균을 중심으로 좌우대칭이므로, 한가운데 평균 m에서 특정한 양 A만큼 떨어진 구간 사이의 넓이(=확률)를 구할 수 있으면 간단한 덧셈 뺄셈을 통해 임의의 구간 사이의 확률을 알 수 있다.

2021학년도 대학수학능력시험(수능) 성적통지표 배부일인 23일 오전 서울 동대문구 해성여자고등학교에서 한 수험생이 수능 성적표를 확인하고 있다. 사진공동취재단

이때 모든 정규분포에 대해 m에서 A까지의 넓이(확률)는 오직 A가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가로만 결정된다. 이는 단지 수학적인 결과이다. 넓이는 적분으로 계산하는데, 정규분포곡선이 제아무리 복잡해도 적절하게 변수를 바꿔 치환적분을 하면 결국 원하는 구간점이 평균에서 표준편차의 몇 배인가라는 양만 남게 된다.

이 말을 수식으로 옮겨보자. A가 m에서 얼마나 떨어져 있는가는 (A-m)으로 계산할 수 있다. 이 값이 표준편차의 몇 배인지 알아보려면 표준편차로 나눠보면 된다. 따라서 우리에게 중요한 값은 (A-m)/σ≡Z이다.

아마도 입시에 관심이 많은 수험생이라면 이 값이 수능에서 표준점수를 구할 때의 ‘Z점수’임을 알 수 있을 것이다. 즉, Z점수는 (원점수-평균)/(표준편차)로 계산한다(물론 수능 점수 분포가 정규분포를 이룬다고 전제한다. 이는 경험상으로도 충분히 그럴듯한 가정이다). 그러니까 수능 Z점수란 자신의 원점수가 전체 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가를 나타내는 양이다. 만약 Z점수가 양수로 크다면 자신의 원점수가 평균으로부터 상당히 상위로 멀리 떨어져 있음을 뜻한다. 임의의 정규분포는 Z의 정의를 써서 Z의 확률분포로 바꿀 수 있다. 이때 Z의 평균은 0이고 표준편차는 1이다. 그러니까 이 세상 모든 정규분포는 적어도 구간별 확률에 관한 한 수학적으로 평균이 0이고 표준편차가 1인 Z의 분포와 똑같다.

예를 들어 평균으로부터 좌우로 표준편차의 1배, 즉 1시그마 떨어진 구간인 m-1·σ≤X≤m+1·σ에 속할 확률은 Z의 입장에서는 -1≤X≤+1인 확률과 똑같다. 이 값을 계산하면 68.3%이다. 이 값에서 다시 우리는 정규분포의 특징, 즉 평균 중심으로 데이터가 모여 있음을 잘 알 수 있다. 좌우로 2시그마 이내에 있을 확률은 무려 95.4%, 3시그마 이내에 있을 확률은 99.7%에 이른다.

그렇다면 나의 성적이 평균 중심으로 3시그마 바깥에 있을 확률, 즉 Z<-3이거나 Z>3일 확률은 0.3%이다. 정규분포는 좌우대칭이므로 내가 Z>3의 점수를 얻었다면 이는 나의 원점수가 전체 학생들 중에서 상위 0.15% 이상이라는 뜻이다.

실제 표준점수는 국어와 수학 등의 경우 Z점수에 20을 곱한 뒤 100을 더한다. 이는 Z값을 20배 한 뒤에 100만큼 옮긴 변환이므로 평균이 100이고 표준편차가 20인 정규분포에 해당한다. 즉, 표준점수 T=20Z+100이라 하면 Z=(T-100)/20이므로 위의 Z 정의에 따라 평균이 100이고 표준편차가 20임을 쉽게 알 수 있다. 이는 자신의 수능 원점수가 평균이 100점이고 표준편차가 20점인 시험에서 몇 점에 해당하는지를 나타내는 지표이다. 따라서 Z점수보다 훨씬 현실적인 느낌을 주지만 수학적으로 큰 의미는 없다.

사실 확률분포에서 수학적으로 의미가 없기는 백분위도 마찬가지이다. 백분위는 내 점수 뒤로 몇 퍼센트의 학생이 있는가를 나타내는 숫자이다. 백분율 자체가 우리 일상에서 아주 익숙하기는 하지만 숫자 100을 기준으로 한다는 사실 자체가 다분히 임의적이고 인간 편의적이다. 반면 정규분포에서 그 특성을 드러내는 지표는 표준편차이다. 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가로 자신의 위치를 가늠할 수 있기 때문이다. 따라서 표준편차는 정규분포 그 자체의 특성을 품고 내장돼 있는 분포 고유의 요소이다. 그러니까 Z점수는 정규분포 고유의 언어이고, 표준점수나 백분위는 우리에게 익숙한 인간의 언어이다. 내가 받은 점수가 전체 수험생들 중에서 어느 위치인지 파악하고 이를 바탕으로 입시전략을 세울 때는 물론 친숙한 인간의 언어로 ‘번역’된 표준점수나 백분위를 이용하면 된다. 그러나 분포 자체의 고유한 성질을 (수학적으로) 이해하려면 인간의 언어가 아닌 수학의 언어, 즉 Z점수에 익숙해야 한다.

수능성적을 이해하는 또 다른 지표는 등급이다. 보통 표준 9등급(standard nine), 즉 스테나인 등급을 사용한다. 아홉 등급의 한가운데인 5등급이 정규분포의 한가운데, 즉 평균이 되게 잡고 표준편차의 0.5배(0.5시그마)만큼의 폭을 따라 새로운 등급을 만든다. 표준편차의 0.5배만큼 증가할 때마다 등급이라는 변수가 1씩 변하니까 스테나인의 표준편차는 2(2×0.5=1)이다.

따라서 스테나인 등급은 SN=2Z+5로 계산된다. 각 등급의 폭이 일정하므로 종 모양의 정규분포에서 평균을 포함하는 한가운데 등급(5등급)의 확률이 가장 크고 가장자리 등급(1 또는 9등급)의 확률이 가장 작다. 또한 스테나인 등급의 평균이 5이고 한 등급의 폭이 0.5시그마이므로 5등급은 평균을 중심으로 좌우가 0.25시그마인 영역에 해당한다. 정규분포표를 이용해 이 확률을 계산해보면 약 20%임을 알 수 있다.

6등급은 5등급의 오른쪽 끝 지점인 m+0.25σ부터 다시 0.5시그마 떨어진 지점, 즉 m+0.75σ 지점까지의 영역이다. 이런 식으로 계속하면 7등급은 0.75~1.25시그마, 8등급은 1.25~1.75시그마, 9등급은 1.75시그마 이상의 영역이다. 정규분포표를 이용해 간단히 계산해보면 6등급은 17%, 7등급은 12%, 8등급은 7%, 9등급은 4%이다. 5등급보다 하위인 4등급부터 1등급도 이와 똑같은 원리로 나뉜다.

결국 가장 중요한 지표는 Z점수로서, 나의 원점수가 전체 학생들의 평균으로부터 얼마나 떨어져 있는가이다. 이것이 분포 자체의 언어로 자신의 위치를 파악하는 방법이다.

▶이종필 교수



1971년 부산에서 태어났다. 1990년 서울대학교 물리학과에 입학했으며 2001년 입자물리학으로 박사학위를 받았다. 이후 연세대, 고등과학원 등에서 연구원으로, 고려대에서 연구교수로 재직했다. 2016년부터 건국대 상허교양대학에서 조교수로 재직 중이다. 저서로 <신의 입자를 찾아서> <대통령을 위한 과학 에세이> <물리학 클래식> <이종필 교수의 인터스텔라> <빛의 속도로 이해하는 상대성이론> 등이 있고, <최종이론의 꿈> <블랙홀 전쟁> <물리의 정석> <스티븐 호킹의 블랙홀> 등을 우리글로 옮겼다.

이종필 교수

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?