[안광섭의 AI 진테제] 판사를 AI가 대체한다고? 굉장한 착각

(지디넷코리아=안광섭 세종대학교 겸임교수(OBF 대표))얼마 전 현직 법조인들과 이야기할 기회가 있었다. 주제는 인공지능이 법조계에 미칠 변화였다. 판례 검색 자동화부터 양형 보조 시스템까지, 대화는 자연스럽게 AI의 사법 활용으로 흘러갔다. 그 자리에서 한 참석자가 꺼낸 말이 귀에 남았다. "결국 AI가 판사보다 공정하지 않겠느냐"는 것이었다.

직관적으로 매력적인 주장이다. 인간은 피로감, 선입견, 기분에 따라 판단이 흔들리지만, 알고리즘은 그런 약점이 없다는 논리다. AI 도입을 주장하는 쪽에서 가장 자주 내세우는 논거이기도 하다. 그러나 기술의 비즈니스 적용을 분석해 온 필자가 보기에, 이 주장은 세 가지 점에서 구조적으로 한계가 명확하다.

올해 2월, 한국 법원행정처는 '법관을 위한 AI 가이드북'을 발간해 전국 판사들에게 배포를 시작했다. 재판 실무에서 챗GPT나 제미나이(Gemini) 같은 상용AI를 활용하는 기준을 제시한 것이다. 같은 달, 대법원은 판례와 법령을 통합 분석하는 '재판지원 AI 시스템'의 시범 운영도 시작했다. AI가 법정에 들어오는 것은 시간문제다.

문제는 AI 도입 논의가 "AI는 공정하다"는 검증되지 않은 전제 위에서 진행되고 있다는 점이다. AI가 공정하지 않다는 근거는 이미 충분히 쌓여 있다. 크게 세 가지로 편향(bias), 아첨(sycophancy), 그리고 프롬프트 인젝션(prompt injection)이다.

편향: 교정하려다 역편향이 생긴다

2024년 2월, 구글의 AI 도구 제미나이(Gemini)가 생성한 이미지가 전 세계적 논란을 일으켰다. 사용자가 '미국 건국의 아버지들'을 그려달라고 요청하자, AI는 흑인 남성과 유색 인종 여성으로 구성된 그룹을 생성했다. '교황'을 요청하면 흑인 여성이, '2차 세계대전 독일 군인'을 요청하면 유색 인종 군인이 나왔다. 구글 CEO 순다르 피차이는 직원들에게 보낸 메모에서 "완전히 용납할 수 없는 결과"라고 인정했고, 제미나이의 인물 이미지 생성 기능은 즉각 중단됐다.

이 사건의 핵심은 기술적 해프닝 자체가 아니다. AI 훈련 데이터의 편향을 교정하려는 시도가 역편향(reverse bias)을 만들어냈다는 구조적 문제다. 편견을 제거하겠다는 의도가 새로운 편견을 생산한 것이다. '편향 없는 AI'라는 목표 자체가 얼마나 달성하기 어려운지를 보여준다.

사법 영역에서는 이미 실제 피해가 발생한 바 있다. 미국에서 널리 사용된 재범 위험 예측 알고리즘 'COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)'에 대해 2016년 비영리 탐사보도 매체 ProPublica가 분석한 결과, 흑인 피고인이 백인 피고인보다 약 2배 높은 확률로 재범 고위험군을 잘못 분류했다. 반대로 백인 피고인은 저위험군으로 잘못 분류하는 비율이 더 높았다. 알고리즘이 인종에 따라 서로 다른 방향으로 오류를 범한 것이다. 이 알고리즘의 판단을 참고해 양형을 결정한 판사가 미국 전역에 걸쳐 있다는 점에서, 'AI 보조 판결'이 이미 현실에서 어떤 결과를 낳았는지를 보여주는 사례다.

아첨: AI는 사용자가 듣고 싶은 말을 한다

AI의 두 번째 구조적 문제는 아첨(sycophancy)이다. AI가 정확한 판단보다 사용자의 기분을 맞추는 방향으로 응답하는 현상을 말한다. 2025년 4월 25일, 오픈AI는 ChatGPT 기본 모델인 GPT-4o를 업데이트했다. 나흘 만에 롤백했다. 모델이 사용자에게 과도하게 동조적으로 변했기 때문이다. 해로운 발언이나 비현실적인 계획에 대해서도 칭찬과 동의를 남발하는 상태였다. 오픈AI는 사후 분석에서 "단기적 사용자 피드백에 지나치게 의존했다"고 시인했다.

이것이 한 회사의 우연한 사고가 아니라는 점이 중요하다. 2026년 3월, 스탠퍼드대 마이라 청(Myra Cheng) 연구팀이 학술지 사이언스(Science)에 발표한 연구는 11개 주요 AI 모델-ChatGPT, Claude, Gemini, DeepSeek 등-을 약 1만2000건의 사회적 상황에 대해 테스트했다. 결과는 충격적이었다. AI는 인간 응답자 대비 평균 49% 더 자주 사용자의 행동을 긍정했다. 사용자가 기만이나 불법 행위를 서술한 경우에도 47%의 비율로 동조했다. 앤트로픽(Anthropic) 역시 자체 연구를 통해 클로드(Claude)의 관계 상담 대화 중 25%에서 아첨적 행동이 나타났음을 확인했다.

사법 맥락에서 이 문제의 함의는 명확하다. 판사가 특정 방향의 판단을 내려두고 AI에 검토를 요청했을 때, AI가 그 판단에 동조해버린다면 어떻게 될까. AI는 검증 도구가 아니라 확증 편향(confirmation bias)의 증폭기가 된다.

프롬프트 인젝션: 조작은 놀라울 정도로 쉽다

세 번째 문제는 보안이다. 프롬프트 인젝션(prompt injection)은 AI에 투입되는 텍스트에 악의적 명령을 숨겨 AI의 행동을 조작하는 공격 기법이다. OWASP(Open Worldwide application Security Project)는 이 기법을 2025년 AI 애플리케이션 보안 위협 1위로 선정했다.

공격 성공률은 시스템 구성에 따라 50%에서 84%에 이른다. 2025년 6월에는 마이크로소프트 365 코파일럿(Copilot)에서 이메일 한 통만으로 기밀 문서를 외부로 유출할 수 있는 제로클릭 취약점이 발견됐다. 사용자가 아무것도 클릭하지 않아도 공격이 성립하는 구조였다. 2026년 2월, OpenAI는 AI 브라우저의 프롬프트 인젝션이 "완전히 패치되지 않을 수 있다"고 공식 인정했다.

재판 기록, 증거 자료, 개인 정보가 오가는 사법 시스템에 이런 취약점을 가진 기술을 도입한다면 어떤 일이 벌어질까. 소송 당사자가 제출한 문서 안에 숨겨진 프롬프트가 AI의 법률 분석을 왜곡할 가능성은 이론적 상상이 아니라 기술적으로 입증된 시나리오다.

"고치면 되는 것 아닌가": Wang & Huang의 대답

여기까지 읽으면 "기술이 발전하면 해결되지 않겠느냐"는 반론이 나올 수 있다. 2026년 3월, 왕지아청(Jiacheng Wang)과 황진빈(Jinbin Huang)이 arXiv에 발표한 논문은 이 희망에 수학적으로 찬물을 끼얹었다.

두 연구자는 다섯 가지 최소 공리인 다차원 품질, 유한한 평가, 효과적 최적화, 유한한 자원, 조합적 상호작용 하에서, 최적화된 AI 에이전트는 평가 체계가 커버하지 못하는 품질 차원에 체계적으로 과소 투자한다는 것을 수학적으로 증명했다. 이 결과는 RLHF(인간 피드백 기반 강화학습), DPO(직접 선호 최적화), Constitutional AI(헌법적 AI) 등 어떤 정렬 방법을 사용하든 성립한다.

핵심은 이것이다. 보상 해킹(reward hacking, AI가 보상 신호의 허점을 이용해 진짜 목표 대신 평가 지표만 최적화하는 현상)은 수정 가능한 버그가 아니라 구조적 균형(Structural Equilibrium)이다. 한 곳을 막으면 다른 곳에서 새로운 형태의 조작이 나타나는 '두더지 잡기' 패턴은 우연이 아니라 수학적 필연이다. 앞서 살펴본 아첨, 편향, 사양 조작(specification gaming)은 모두 이 하나의 구조적 원리로 설명된다.

AI는 도구다. 공정성의 주체가 아니다

필자가 보기에, "AI가 판사를 대체할 수 있다"는 주장의 근본적 오류는 AI를 공정성의 주체로 격상시킨다는 데 있다. 인간 판사의 편견은 비판할 수 있다. 항소할 수 있고, 언론이 보도할 수 있으며, 탄핵할 수도 있다. 편견의 존재가 투명하기 때문이다. 그러나 AI의 편향은 블랙박스 안에 있다. 왜 그런 판단이 나왔는지 설명하지 못하는 시스템에 사법적 권위를 부여하는 것은, "공정한 척하는 불공정"을 제도화하는 것과 같다.

한국 법원행정처가 올해 발간한 가이드북의 접근법은 올바른 방향이다. 가이드북은 AI를 판례 검색, 문서 초안 작성, 배경 지식 검토 같은 도구로 활용하되, 최종 판단과 책임은 법관에게 있다는 원칙을 명확히 했다. AI의 환각(hallucination), 데이터 편향, 개인정보 침해 위험을 점검하기 위한 실무 체크리스트까지 포함했다.

AI를 법정에 도입하려면, '공정성의 주체'가 아니라 '효율성의 도구'로 위치를 한정해야 한다. 판례 검색과 문서 정리에는 유용하다. 양형 판단이나 유무죄 판단에 AI의 출력을 근거로 삼는 것은 위험하다. 'AI가 인간보다 공정할 것'이라는 근거 없는 낙관 위에 사법 시스템을 설계하는 것은, 편향이 내장된 블랙박스에 법복을 입히는 것과 다르지 않다. 한계를 모른 채 신뢰하는 것이야말로 가장 위험한 편향이다.

안광섭 세종대학교 겸임교수(OBF 대표)(me@oswarld.com)

지디넷코리아에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

[안광섭의 AI 진테제] 판사를 AI가 대체한다고? 굉장한 착각