당신 아이 심리검사 믿을 만한가요?

초·중·고교에 재학 중인 자녀를 둔 학부모라면, 학년이 바뀔 때마다 자녀가 가져온 각종 검사용지를 본 경험이 있을 것이다. 학교 현장에서는 진로·적성·지능 등을 측정하는 다양한 심리검사를 시행하고, 그 자료를 바탕으로 진로와 진학 상담을 한다.

심리검사 자료에는 유용한 정보가 많이 담겨 있다. 변호사와 엔지니어 중에서 어떤 직업이 더 어울릴지, 수리능력과 언어능력 중 어떤 재능이 더 큰지, 인문계·자연계·예체능계 중 어떤 방향으로 진로를 잡는 것이 좋을지 등. 심지어 심리검사 결과가 학생의 진로에 영향을 끼치기도 한다.

예를 들어 음악 적성이 강하다는 검사 결과를 받아든 학생과 이를 본 교사에게는, 학생이 음악에 재능이 있다는 '기대'가 형성될 수 있다. 이러면 학생이 음악 관련 진로로 이끌릴 수 있다. 교육심리학에서 유명한 로젠탈 실험( 역사에 남은 심리 실험 '로젠탈 효과'기사)은 이처럼 '기대'가 '결과'로 이어지는 효과를 입증한 것이다. 그런데 그 '기대'가 잘못된 검사로 입력된다면?

제보자가 심리검사 정확도를 '공익 고발'한 이유

<시사IN>은 초·중·고교 현장에서 널리 쓰이는 여러 심리검사에 심각한 오류가 있다는 제보를 받았다. 제보자(18쪽 사진)가 지목한 오류의 진원지는 한국가이던스. 1988년 설립된 회사로, 심리검사 시장에서 경쟁자를 찾기 힘들 정도로 첫손에 꼽히는 기업이다. 제보자는 한국가이던스에서 근무하며 일련의 과정을 지켜보았던 인물이다. 제보자는 '2014년 한 해에만 34만명 가까운 초·중·고교 학생이 엉터리 심리검사를 받았다'라고 주장했다.

제보자는 심리검사의 정확도가 시급한 공익 고발의 대상이 된다며 이유를 이렇게 주장했다. '심리검사 결과는 학생들의 진로 상담과 적성 파악에 중요하게 사용되는 자료다. 교사들이 심리검사 결과와 나이스(NEIS:교육행정정보시스템) 창을 나란히 띄워놓고, 검사 결과를 참고해 학교생활기록부를 쓰기도 한다. 이러면 대학 입학사정관이 보는 공식 문서에 심리검사 내용이 남게 된다. 상상해보시라. 수학을 좋아하고 잘하는 학생이 면접에서 '적성이 음악이라는데 공대는 왜 지원했나요?'라는 질문을 받고 당황하는 장면을.'

제보자는 한국가이던스와 법정 다툼 중이다. 한국가이던스는 제보자가 회사를 비방했다며 고소했고, 제보자는 한국가이던스가 엉터리 심리검사를 유통시켰다며 사기죄로 고소했다. <시사IN>은 객관적 자료를 중심으로 취재를 진행했다. 제보자의 주관적인 견해는 '주장'으로 명기한다.

<시사IN>은 심리학 연구자 두 명에게 제보자가 제시한 자료 검증을 의뢰했다. 연구자의 신원은 익명으로 처리한다(이들이 검증하는 심리검사 설계자들은 심리학계의 교수들이다). <시사IN>이 섭외한 연구자들은 '연구자라면 거의 대부분 동의할 수 있는 선에서 논평하겠다'라고 전제한 후 자료를 검증했다.

'이야, 이건 심하네.' 연구자 A는 <그림 1>을 보자마자 탄식부터 내뱉었다. 이 그림은 2014년부터 한국가이던스가 새로 도입한 종합적성검사 CHCA 검사 결과다. CHCA 검사 설계자는 탁 아무개 교수다. 그림은 서울에 있는 한 일반계 고등학교 한 학년의 CHCA 평균점수다.

그림에는 '주의집중력' 항목이 불쑥 솟았다. 점수는 80.7점이라고 되어 있고, 상단 오른쪽에는 'T점수'라고 적혀 있다. '한 학교 평균 점수가 이렇게 나올 수는 없어요. 심리학 전문지식도 필요 없고 T점수가 뭔지만 알아도 말이 안 된다는 걸 알 수 있습니다.' T점수는 평균이 50이고 표준편차가 10인 환산점수로, 40점에서 60점 사이에 전체의 68.3%가 촘촘히 몰려 있게 되어 있다. 그림에서 T점수가 80.7점이라는 것은, 특출한 학생 한 명도 아니고 학교 전체의 평균점수가 상위 0.3% 수준이라는 의미다. 사실상 불가능하다. 오류를 의심할 만한 수치다.

<그림 2>는 주의집중력 T점수가 52.3점으로 평균에 가까운 학교의 자료다. 비교를 위해 제시했다. 왼쪽의 세로축을 보자. 범위가 48.4점에서 54점 사이로 되어 있다. 개인의 결과가 아니라 학교 하나의 평균치이므로, 저 정도 범위 안에 모든 항목 T점수가 들어오는 것이 보통이다. 반면 80점 이상으로 치솟은 <그림 1>은 세로축 범위가 42점에서 81점 사이로, 아예 범위 설정부터 크게 달라서 한눈에 차이를 알 수 있다. 그림을 보자마자 연구자가 탄식을 터뜨린 이유다.

갑자기 확 달라지는 검사 결과값

학교 하나에서 어쩌다 난 오류가 아니다. 제보자가 제공한 자료를 보면, 2014년도 CHCA 검사에서 주의집중력 학교 평균 T점수가 70점을 넘는(학교 전체 평균점수가 상위 2% 수준이라는 의미다) '집중력 천재들의 학교'가 확인된 것만 27개나 나왔다. 대부분 3월 검사에 몰려 있다. 그러던 것이 4월 이후로는 T점수가 평균값 수준인 50점 안팎으로 뚝 떨어진다. <그림 3>(위)은 제보자가 제공한 자료에서 각 학교들의 주의집중력 결과값이 시간이 지남에 따라 어떻게 변하는지 그린 것이다. 3월과 4월 사이에 같은 검사의 결과라고 보기 힘든 극적인 변화가 일어난다.

한국가이던스가 판매하는 심리검사 중에는 SLT라는 검사도 있다. 자기조절 학습검사다. 개발자는 양 아무개 교수다. 이 검사에서도 연구자들을 당황시키는 결과값이 나온다. 이번에는 '반응일관성'이라는 개념을 보자.

심리검사의 기법 중에는 대상자가 검사에 진지하게 임하고 있는지 혹은 '대충 찍고 있는지'를 구분하는 방법이 있다. 내용이 비슷한 질문을 표현만 바꿔 묻는 등의 방식으로, 대상자가 일관된 답변을 하는지를 보는 것이다. 이를 '반응일관성'이라고 한다. 반응일관성이 없다고 나온 검사 결과는 응답 내용을 신뢰할 수 없다. 대상자의 연령이나 지도교사의 숙련도에 따라 차이가 적지 않지만, 대체로 검사 대상자 중 2% 안팎에서 '반응일관성 없음'이 나온다고 한다.

연구자 B는 숫자를 듣자마자 황당하다는 반응부터 보였다. 제보자가 제공한 SLT 검사결과를 보면, 한 학년에서 반응일관성이 없는 응답의 비율이 높게는 74.8%까지 나왔다. 이 숫자가 뜻하는 것은, 검사 대상자 네 명 중 세 명이 '아무렇게나 찍은 답안'을 제출했다는 얘기다. 한 학년 전체가 미리 공모라도 하지 않는 한 불가능한 수치다.

이 검사 대상은 초등학교 6학년이었다. 혹시 유난히 고약한 초등학교가 운 나쁘게 하나 끼어들었던 것일까? 그렇지 않다. 2014년 3월부터 6월까지, 적어도 21개 학교에서 반응일관성이 없는 응답 비율이 지나치게 높았다.

'데이터가 튀는' 21개 학교 중 가장 낮은 수준이 49.1%로, 여전히 비정상적으로 높다(<그림 4>). 연구자 B는 '표준화를 안 했네요'라고 명료하게 말했다. 여기서 핵심 개념이 등장한다. '표준화'라는 낯선 단어다.

심리검사를 만든다는 것은 아주 복잡한 과정이라고 연구자들은 설명한다. 어떤 학생의 수리능력이 '상위 10%'라고 말하려면, 애초에 전체 평균이 어느 정도이고, 개별 응답자가 평균보다 얼마나 더 뛰어나야 상위 10%에 해당하는지를 알아야 한다. 응답자들의 점수가 지나치게 비슷해 상중하를 평가하는 의미가 없어져도 곤란하므로, 성적 분포는 적절하게 분산되어야 한다. 결과값은 현실에서도 의미를 가져야 한다. '수리능력 상위 10%'로 측정된 응답자끼리는 실제로 능력이 비슷하다고 믿을 수 있어야 한다.

이 모든 조건을 충족하는 것이 얼마나 까다로운지를 설명하기 위해 연구자 A는 수학능력시험을 예로 들었다. '수능은 성적 분포가 적절하게 분산되는 것 하나만 성공해도 된다. 이것이 '난이도 조절'이다. 그런데도 수능 시행 20년이 넘도록 난이도 조절 실패가 되풀이된다.' 심리검사 설계란 여기에다가 추가로 여러 제약조건을 더 달면서도 '난이도 조절'을 매번 성공시키는 것과 같다고 비유했다.

수능에서 수리영역보다 외국어영역이 더 쉬웠다고 가정해보자. 이건 큰 문제는 아니다. 각 영역 안에서만 점수 분포가 적절하면 된다. 하지만 적성검사 문항을 설계할 때 수리능력보다 음악능력 측정 문항이 더 점수를 얻기 쉽다면 어떻게 될까. 실제로는 수리 적성이 높은 학생이 '음악 적성 높음'이라는 잘못된 진단을 받을 수 있다. 이러면 심할 경우 잘못된 '기대'가 학생과 교사에게 입력되어 진로 선택에 영향을 줄 수도 있다(로젠탈 효과. 역사에 남은 심리 실험 '로젠탈 효과'기사 참조).

따라서 심리검사는 이런 문제도 해소해야 한다. 문항 난이도를 조절하거나 통계적인 보정을 한다. 그러면 다시 문항 난이도를 얼마나 조정해야 할지, 통계적인 보정값을 얼마나 주어야 실제 학생들의 적성 분포에 맞는 결과가 나올지, 애초에 실제 학생의 적성은 어떻게 분포되어 있을지… 질문은 끝도 없이 이어진다.

심리검사에서 '표준화'가 중요한 이유

이 모든 질문에 답을 찾아서, 신뢰할 만한 검사를 설계하는 일련의 과정을 '표준화'라고 부른다. 표준화를 위해서는 표본집단을 대상으로 테스트용 심리검사를 실시해 설계 단계의 편향과 오류를 잡아내야 한다. 비용과 품이 많이 드는 작업이다.

'결국 그 얘기를 하려고 눈에 띄는 오류들부터 보여드린 겁니다.' 제보자는 드디어 결론에 도달했다는 듯 목소리가 높아졌다. '사람이 하는 일이니 실수는 있을 수 있어요. 예를 들어 1번과 10번 문항이 반응일관성 테스트인데 실수로 1번과 11번을 묶어서 채점했다면 반응일관성은 엉망으로 나오겠지요. 그런데 엉망인 결과로는 해석이 도저히 안 맞으니까, 신뢰할 만한 해석이 나올 수가 없으니까 표준화 과정이 끝날 수가 없어요. 그래서 표준화가 된 검사에서는 이런 심각한 오류가 반복해서 나는 것이 불가능하다는 겁니다.' 연구자 B가 몇몇 결과값을 보고 '표준화 안 했네요'라고 즉각 반응한 이유다.

오류 하나하나의 내용도 중요하지만 핵심은 따로 있다. 오류가 걸러지지 않은 것은 표준화가 되지 않았다는 증거이며, 표준화되지 않은 심리검사는 신뢰도를 알 수 없으므로 근본적으로 엉터리라는 것이 제보자 주장의 핵심이다.

표준화되지 않았다는 것은, 어디에 어떤 오류가 더 숨어 있을지, 검사 전체의 신뢰성을 판단할 수 없다는 뜻도 된다. 연구자 A는 이렇게 논평했다. '표준화가 되지 않은 심리검사를 출시한다는 건, 신약 개발로 치면 FDA(미국 식품의약국) 승인이 떨어지지 않은 약을 시중에 판 거나 마찬가지다.'

역시 한국가이던스가 2014년 출시한 검사 중에 MCI 검사가 있다. 다면적 진로탐색검사다. 제1 저자는 이 아무개 교수다. MCI는 응답자의 성격 유형을 여섯 가지로 나누는데, 그중에 R형(현실형)이라는 것이 있다. 사물·기계·도구·동물을 다루는 것을 좋아하고, 사람보다는 사물과의 관계에 더 편안함을 느끼는 성격 유형이다.

R형을 포함한 6개 성격유형은 MCI 검사 고유의 구분은 아니다. 홀랜드 검사라는 국제적으로 공인된 성격유형 검사에서 정립된 개념을 거의 그대로 가져왔다. 원조 격인 홀랜드 검사에서 R형의 비중은 대체로 10%를 넘지 않는다. 그런데 2014년 3월 MCI 검사에서는 R형이 한 학교에서 29.2%가 나오기도 했다. 제보자는 '홀랜드 검사를 오랫동안 보아왔기 때문에, 결과를 보자마자 '데이터가 튀었다'고 직감했다'라고 주장했다.

MCI는 홀랜드 검사와 달라서 R형이 더 많이 나오도록 고안되었다고 주장할 수도 있기 때문에, 숫자만 보고 오류라고 확정할 수는 없다. 하지만 문제는 학교 현장의 반응이었다. 예를 들어 한 학교에서 난데없이 R형이 쏟아진다거나 하는 식으로 납득할 수 없는 결과가 나오면, 일선 학교에서도 검사 기관인 한국 가이던스에 항의를 할 수 있다.

2014년 4월28일. 당시까지 한국가이던스에 근무 중이던 제보자는 검사 설계자인 이 아무개 교수와 통화로 이 문제를 상의한다. 아래의 대화 내용은 제보자가 제시한 공증된 녹취록을 발췌 인용한 것이다.

제보자:외람된 말씀이지만 외부에 알려지는 것이 통제되어야 할 것 같아요.

이○○:그렇죠. 이거는 아주 큰 실수라… 왜 그렇게 잘못되어 있는지 저도 지금 명확히 알 방법이 없어요. 근데 어쨌든 중요한 거는 '잘못되었다'라는 게 지금 확인이 된 상황이니까….

제보자:그 전에 많이 좀 결과가 나갔거든요. 나간 부분들이 알려지거나 공론화가 되면 서로에게 치명적인 부분들이 있어서 저희 쪽(한국가이던스)에서도 그 부분에 대해서는 보완을 하려고 하는 부분이에요.

이○○:네, 그런데 지난번에 ○○학교(예체능계 학교다)에서 '결과가 이상하다고 들어왔다'라는 얘기를 들었어요. 아마 새로운 코딩으로 하면 분명히 결과가 제대로 나오게 될 것 같은데….

제보자:현장에서 실제로 느끼는 부분들, 잘 맞지 않는 것 같다는 피드백이 계속 들어와서….

이 대화 내용 중에도, 연구자 A는 '타당화 이전'이라는 말에 주목했다. 타당화는 표준화 과정에서도 핵심 중 하나라며 이렇게 말했다. '신약 개발 비유를 계속 쓰자면, 이건 FDA 승인은 고사하고 동물실험도 안 끝난 신약을 시장에 팔았다는 얘기와 비슷하다.'

같은 날인 4월28일, 제보자는 이번에는 한국가이던스의 핵심 실무자와 통화해 오류 문제를 상의한다. 이 실무자는 지금도 재직 중이다. 역시 대화 내용은 제보자가 제시한 공증된 녹취록을 발췌 인용한 것이다. 당시 한국가이던스 내부의 분위기를 짐작하게 해주는 대화다.

실무자:네. 연수 일정이 5월로 잡혔다든지 이런 학교가 있으면 그거를 다시 뽑아가지고 재발송하는 걸로 조치를 빨리 취해야겠죠. 뭐 어차피 그때까지는 결과에 대해서 관심이 없으니까. 안 보니까.

제보자:네, 그렇죠.

(중략)

제보자:그러니까 기존에 잘못된 거는 계속 잘못된 상태로 보여주고.

실무자:아니 그러니까 그것도 어떻게 해야 될지 좀 애매하네요. 바꿔도 문제고 안 바꿔도 문제고 참… 근데 뭐 그건 바꿀 수 없을 것 같아요.

제보자:그거 바꾸면 난리 나요.

제기된 의혹을 검증하기 위해 <시사IN>은 7월29일 한국가이던스에 취재를 요청했다. 한국가이던스는 7월30일 오전 10시에 성남시 한국가이던스 사무실에서 취재에 응하기로 했다. 하지만 약속시간 90분 전인 오전 8시30분, 한국가이던스는 취재 불가 방침을 통보해왔다. 제보자가 회사에 악의를 가진 인물로 짐작되므로 편향된 제보에 의한 '표적 취재'에는 응할 수 없으며, 서면으로 관련 자료를 제시하면 취재에 응하겠다는 취지였다.

'2014년에 2215개교가 이 심리검사 활용'

이에 <시사IN>은 내부자 고발 취재의 특성상 자료를 서면으로 보내는 취재는 적절하지 않다고 답했다. 이튿날인 7월31일 한국가이던스는 공문을 보내왔다. '표적 취재'가 의심된다는 주장과, 서면으로 자료를 보내면 취재에 응하겠다는 제안을 되풀이했다.

제보자가 표준화 과정을 신뢰할 수 없다는 의혹을 제기한 검사는 모두 네 종류다. 검사들은 학년과 연령대에 따라 나눠지기 때문에 세분하면 모두 12종이다. 검사 각각을 결합상품 형태로 묶어서도 판매하므로 출시한 상품 수는 더 많다. 각 검사를 설계한 저작권자들은 대체로 '나는 한국가이던스에 제대로 된 내용을 넘겼으니 회사를 상대로 사실 확인을 하라'는 반응을 보였다.

내부자 고발의 형태로 의혹이 제기되고, 의혹을 뒷받침하는 내부 자료와 공증된 녹취록이 확인되었다. 의혹의 당사자인 한국가이던스는 8월7일 <시사IN>과 만났으나 공문에서 주장한 제보자의 신뢰성 문제를 되풀이하면서, <시사IN>이 요청한 핵심 반박자료를 제시하지는 않았다. 제보자의 주장에 따르면, 내부자여서 파악이 가능했던 2014년 한 해에만 엉터리 의혹이 있는 심리검사를 받은 초·중·고교가 2215개교, 학생 수로는 33만8472명이다.

천관율 기자 / yul@sisain.co.kr

사회

당신 아이 심리검사 믿을 만한가요?