[여현덕의 AI Thinking] 불확실성과 ‘로또’ 판결에 도전하는 AI판사 탄생할까

판사 208명에 16개 가상사건 맡겨
만장일치 3건 불과 형량 모두 달라

천년 역사 사례·백년 판례 머신러닝
AI가 사람보다 더 공평한 판결 기대

그리스에서 미(美)의 여신상 비너스에 비견되던 프리네가 신성모독으로 법정에 서게 됐다. 당대 재력가 에우티아스가 자신의 구애를 거절한 데 앙심을 품고 그녀를 고발했기 때문이다. 사형선고 위기에 처한 그녀를 변론하기 위해 연인 히페레이데스는 엄숙한 법정에서 파격적인 변론 전략을 구사한다. 그녀의 몸을 휘감고 있던 천을 벗기는 장면을 연출한다. 배심원들은 놀라움과 감동으로 어쩔 줄 모르다가 “저렇게 아름다운 여인은 신께서 내린 은총이기 때문에 인간의 법으로 판결할 수 없다”며 무죄를 선고한다. 감성에 좌우되는 인간의 한계를 보여주는 가장 고전적인 사례가 아닐까 한다.

행동경제학의 창시자로 노벨경제학상을 수상한 대니얼 카너먼은 저서 ‘생각에 관한 생각(Thinking Fast and Slow)’에서 가장 냉철하게 판단하고 이성적일 것 같은 엘리트 판사들이 무려 71.8%나 오답을 냈다면서 판사들이 오류에 빠지는 이유를 ‘시스템2’(논리적·과학적 사고)만큼이나 ‘시스템1’(경험적·직감적 통찰)에 의존하기 때문이라고 분석한다. 시스템2는 ‘AI Thinking’과 직결된다.

이후 카너먼은 동일한 사건을 놓고 ‘콩에서 팥까지’ 너무나 분산된 판단을 내리는 현상을 분석한 ‘노이즈(Noise): 생각의 잡음’을 내놓았다. 가령 면접관들이 동일한 조건의 지원자를 놓고 누구는 뽑고 누구는 떨어트리기 때문에 불공정하고 위험하다. 주말 축구 경기에서 패배한 다음 날 판사는 더 가혹한 판결을, 자기 생일날에는 관대한 처분을, 딸을 둔 판사는 여성에게 호의적인 판결을 내리는 경향은 대부분 ‘시스템1’에 근거하는데, 실은 인간의 본질적 한계이기도 하다. 하지만 동일한 사건임에도 판사마다 다른 결론을 내려 A=무죄, B=5년형, C=20년형에 처하는 것은 정말로 심각한 문제가 아닐 수 없다.

카너먼은 미국 연방판사 208명을 대상으로 16개의 가상 사건을 맡겨보니 만장일치로 징역형이 내려진 사건은 3건에 불과했고 형량이 모두 달랐다고 한다. 동일한 사건에 대해 8.5년에서 무기징역까지 선고됐다는 것은 충격적이다. 저마다의 기준이 달라 결과 분산이 발생했기 때문이라는 것이다. 카너먼은 이 같은 ‘로또’ 판결은 용납할 수 없는 일이라고 질타한다. 동일한 사건을 놓고 너무나 차이 나게 판결하는 경향은 일관성이 없어 불공정한 결과로 인식되고, 예측불허라 늘 잡음을 낳게 된다.

아프리카계 미국인으로 모진 차별을 겪으면서 최초로 MIT에서 물리학 박사학위를 받고 대학 총장에 오른 셜리 앤 잭슨(‘세상을 바꾸는 힘’ 저자)이 미국 대법관 존 로버츠에게 “법정에서 AI 판결을 보는 날이 올까요?”라고 묻자, 대법관은 “그날이 이미 왔습니다”라고 대답한다. 근래 법원에 대한 불신과 함께 AI 재판에 대한 요구가 점증하고 있다. 스위스 취리히연방공대 알렉산더 스트레미처 교수팀이 올해 2월 6000명을 대상으로 조사한 결과 AI가 사람보다 공평한 판결을 할 것이라고 기대한다. 우리나라에서도 마찬가지다. 한국리서치(2020년 12월)에 따르면 법원 판결에 불신(66%)하며, AI 판사(48%)를 인간 판사(38%)보다 더 신뢰한다고 응답했다. ‘시스템2’에 속한 인간과 비교해 그런 불확실한 변수에서 자유로운 AI가 더 공정하고 객관적으로 판결할 수 있을 것이라는 인식이 커지고 있다는 점에 주목해야 할 것이다.

블랙박스는 AI만 가진 문제가 아니다. 인간은 본질적으로 속을 알 수 없는 블랙박스다. 공정하거나 투명하지 않은 경우도 많고, 자신이 보고 싶은 것만 보고 나머지는 무시하기에 선택적 자각이나 확증편향에 빠지기도 한다. 똑같은 장소에서 똑같은 것을 들어도 자기가 원하는 것만 듣기 때문에 정반대 결론이 도출된다. 자신이 세운 가설에 따라 증거를 수집하고 다른 증거는 무시된다.

법조계 일각에서는 AI 판사는 절대로 안 된다고, 판결 오류를 과장하지 말라고 항변할 수도 있을 것이다. 하지만 바둑 고수를 능가하는 알파고처럼 AI 판사가 질 좋은 데이터와 결합하면 AI 판결의 정확도가 인간을 훨씬 초월하게 될 수 있을 것이다. AI는 진위를 구분하고 더 나은 결정에 도움을 준다. AI는 뇌물을 받지 않으며, 출신학교에 신경 쓰지 않는다. 밤잠 자지 않고 24시간 동안 일해도 결코 지치는 법이 없다. 무엇보다 노이즈에 흔들리지 않기에 잘 설계된 알고리즘은 정파에 휘둘리지 않는다. 지위고하를 막론하고 눈치를 안 보니까 당대표라고 봐주는 것은 꿈에도 상상할 수 없다.

근래 AI 법률지원 플랫폼과 기술이 쏟아져 나오고 있다. 법률 용어설명 AI(리걸 로봇), 판례분석 AI(원로우), AI 기반의 계약 플랫폼(긱스), 법적 분쟁 처리 AI봇(두낫페이) 등 다양한 서비스가 등장했다. 이 정도 발전 속도라면 AI 배심원이나 AI 판사의 등장도 기술적으로는 가능해 보인다. 동일한 사건을 두고 180도 다르게 판결하는 문제를 AI 시스템으로 해결하는 것도 시간문제일 것이다.

미국 컬럼비아대 경영대학원 윌리엄 더건 교수는 저서 ‘전략적 직관’에서 방대한 역사의 바다에 저장된 보물을 히스토리 스토밍(History Storming)으로 채굴하라고 조언한다. 최소한 1만명의 생각과 사례 데이터를 활용하면 집단지성이 생겨나 객관적이고 신뢰할 만한 답이 나온다. 어떻게 가능한가? 머신러닝의 힘을 빌리면 된다. 이를 통해 천년의 역사적 사례와 백년의 판례를 분석하면 큰 통찰력을 얻을 수 있을 것이다. 정확성과 아울러 통찰력을 갖춘 출중한 AI 판사가 탄생할 것이다. 몇 명의 두뇌가 모이는 브레인스토밍은 의견이 분산될 수 있지만 최소한 1만개 이상의 데이터를 갈아 넣으면 정확도는 놀랄 만큼 높아질 것이다.

미국에서 병원의 오진율은 평균 5%에 달하지만, AI+닥터 협업을 잘하면 오진율은 0.5%까지 떨어질 수 있다는 보고서를 접하면서 안도감을 느끼는 것은 혼자만의 생각일까. 만약 여러분이 인간 판사와 AI 판사를 선택해야 하는 기로에 선다면 누구를 선택할 것인가. AI+판사의 협업지능(CQ)은 어떨까. 다 같이 한 번쯤 진지하게 생각해보고 싶다. 궁금증이 깊어지는 아침이다.

여현덕 카이스트 기술경영전문대학원 교수

국민일보

사설칼럼

[여현덕의 AI Thinking] 불확실성과 ‘로또’ 판결에 도전하는 AI판사 탄생할까