“AI가 로스쿨 교수 답보다 낫다”

김지수 기자 2026. 6. 6. 05:00
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI와 인간의 로스쿨 답안 비교
미국 교수 16명 블라인드 테스트
법적 추론 능력 시험서 교수 압도
AI 심사에선 ‘클로드 4.7’이 1위

인공지능(AI)이 지식을 평가받는 단계를 넘어서 추론 중심의 법학 주관식 문제에서도 인간 교수를 능가하는 평가를 받았다. 이 평가는 2025년 8월에 구글의 AI 모델 구형 버전인 '제미나이 2.5 프로'와 '노트북LM'을 대상으로 이뤄진 것이고 그 이후로도 대형언어모델(LLM)이 지속적으로 진화하고 있어 로스쿨의 교육과정에 변혁이 일고있다.

16명 교수와 AI의 2,918번 1대1 대결
미국 스탠퍼드와 예일 등 14개 로스쿨 소속 계약법 교수 16명은 AI와 인간의 법적 추론 능력을 비교하는 실험에 참여했다. 교수들은 평소 학생들이 자주 묻는 대표적인 질문 40개를 출제했다. 이후 16명의 교수진과 '제미나이 2.5 프로'와 전공 교재를 참조한 검색증강생성(RAG) 기반의 '노트북LM'이 각 질문에 대해 3분 분량의 짧은 주관식 답변을 작성했다. AI는 40개 질문 모두에 답했고, 인간 교수는 질문들을 배정받아 답변했다. 

16명의 교수진은 답변 작성자가 동료 교수인지, AI인지 철저히 가려진 상태에서 교수의 답변과 AI의 답변을 나란히 두고 '내 학생에게 어떤 답변을 주는 것이 더 유익한가'를 기준으로 '블라인드 1대1 평가'를 총 2,918회 진행했다. 

결과는 AI의 완승이었다. 5월 27일 발표된 연구결과에 따르면, 1대1 대결에서 '제미나이 2.5 프로'는 75.92%의 평균 승률을 기록했다. 이는 교수들이 동료 교수와 AI의 답변 중에서 4번 중 3번은 AI의 손을 들어줬다는 뜻이다. '노트북LM' 역시 74.75%의 승률로 인간 교수들을 앞섰다.

이번 연구는 단순한 사실 관계 암기가 아니라, 모호한 상황에서도 맥락에 맞는 법적인 기준을 찾아내 방어 가능한 결론을 도출해야 하는 법학의 답변 영역에서도 AI가 앞서가고 있다는 것을 의미한다고 연구진은 밝혔다. 

실제로 AI는 새롭게 등장한 상황에 법리를 적용해야 하는 '가상 사례(Hypotheticals)'와 '정책(Policy)' 질문에서 높은 평가를 받았다. 제미나이의 경우 가상 사례에서 74.24%, 사례·조문 암기에서 인간 교수 대비 77.17%의 승률을 기록했다. 노트북LM도 인간 교수 대비 각각 72.69%, 76.80%의 승률을 보였다.

'유해한' 오답 비율 역시 AI가 훨씬 낮았다. 인간 교수의 답변은 평균 12.06%(최대 39.75%)가 유해하다고 판정받은 반면, AI 모델들의 유해성 비율은 3%대에 그쳤다. 

유해한 답변이란 학생의 학습을 저해할 정도로 품질이 낮거나 부정확한 설명, 혼란을 주는 설명, 오답 등을 뜻하는데 AI 할루시네이션을 측정하는 기준이기도 하다. AI가 이 테스트에서는 인간보다 할루시네이션이 적은 것으로 나타났다.  

또 주목할 만한 점은 교육 환경에 맞춰 전공 교재에 기반해 답변을 생성하도록 한 검색증강생성의 '노트북LM' 이 이를 적용하지 않은 기본형인 제미나이 2.5 프로보다 낮은 평가를 받았다는 점이다. 연구진은 "긴 문서로 AI의 문맥(context)에 과부하를 주면 관련 자료가 희석되고 노이즈가 유입될 수 있다"고 설명했다.

진화하는 AI에 격차 더욱 벌여져
연구진은 9개의 최신 인공지능 모델로 확장한 2차 테스트에서는 오픈소스 AI 모델인 '라마-4 매버릭(Llama-4 Maverick)'에 로스쿨 교수들의 모범답안을 학습시킨 뒤 재현가능성을 확인하고 라마-4를 AI 심사관으로 활용했다. AI 심사관의 비교평가 결과 앤트로픽의 '클로드 오퍼스 4.7'이 1위를 차지했다.

추가 평가에 등장한 모든 AI 모델이 평균적으로 실제 로스쿨 교수들이 쓴 답변보다 더 높은 평가를 받았다. 전체적인 순위를 매긴 결과 인간 교수진은 평가 대상이 된 모든 AI에 밀려 최하위에 머물렀다. 연구진은 2025년 8월 첫 평가 이후에도 인공지능 기술이 빠르게 발전하면서, 최고 수준의 AI와 인간 교수 사이의 실력 격차가 갈수록 더 크게 벌어졌다고 분석했다.

연구진은 이번 결과를 토대로 교육 현장에서의 상시 AI 튜터가 유용할 수 있다는 가능성을 제시했다. 다만 실제 교육 현장에 AI를 안전하게 도입하기 위해서는 정밀한 제도적 보완이 뒷받침되어야 한다고 조언했다. 신뢰성 확보를 위한 구체적인 장치로는 명확한 사용 범위 제한, 불확실한 질문에 대한 답변 거부 정책, 일관된 답변 생성, 수업 자료에 대한 명확한 출처 표기, 그리고 예외적인 사례나 심화 질문을 교수에게 이관할 수 있는 명시적인 경로 확립 등을 제시했다.

한국 로스쿨도 "AI 튜터 도입 가능성"
이번 연구결과에 대해 국내 법조에서도 비상한 관심을 보이고 있다. 최경진 한국인공지능법학회장(가천대 법대 교수)은 "AI가 앞으로도 더 발전할 만큼 점점 법학 교수들의 설 자리가 더 없어지게 될 것"이라며 "법학 교수들은 도태되지 않으려면 학생과의 교감 등 인간만이 할 수 있는 영역을 찾아서 발전시켜야한다"고 말했다.  

이경훈(사법연수원 14기) 법무법인 바른 변호사는 "이번 연구는 한국 로스쿨 교육 환경에 AI를 어떻게 도입할지 큰 시사점을 안겨준다"며 "계약법의 기본 원리는 대륙법과 영미법을 떠나 보편적인 성격을 띠기 때문에 한국 로스쿨 상황에 대입해 보더라도 충분히 의미가 있을 것"이라고 전했다.

이성엽 고려대학교 기술경영전문대학원 교수는 "교수들은 보통 특정 전공 분야의 전문가이므로 인접 분야의 법률 질문에까지 즉각적인 답변을 제시하기는 어렵다"며 "일종의 '백과사전'이라 할 수 있는 생성형 AI가 더 폭넓은 답변을 제공하는 것 처럼 느껴질 수 있다"고 말했다.

반면 AI를 적극적으로 활용하는 한 부장판사 출신 변호사는 "AI가 학생들의 이해를 돕는 개별 튜터의 역할을 할 수 있음을 보여주는 연구"라면서도 "이를 'AI가 법학교수를 대체한다'는 식으로 받아들이는 것은 성급하다"고 설명했다. 그는 법학 교육의 본령은 단순한 정답 제공이 아니라, 사실관계의 미세한 차이를 포착하고, 규범적 가치판단을 훈련하며, 판례와 법리를 현실 사건에 적용하는 사고방식을 길러 주는 데 있다고 덧붙였다. 그는 또 "AI는 표준적 질문에 대해 빠르고 친절하며 구조화된 답변을 제공하는 데 매우 강하지만, 학생의 인격적 성장, 직업윤리, 법조인으로서의 균형감각까지 대신 길러 줄 수는 없다"며 "국내 로스쿨은 교수의 설명, 토론, 사례연구, 채점 피드백을 보조하는 지능형 교육 인프라로 AI를 적극 활용해야 한다"고 제안했다.

강민구(14기) 법무법인 도울 대표변호사는 "국내 로스쿨이 지금 해야 할 일은 AI 사용 금지가 아니라 AI 사용 문해력 교육이다. 학생에게는 AI 답변을 비판적으로 검증하는 법을 가르치고, 교수에게는 AI를 수업 설계와 피드백 도구로 활용하는 표준 절차를 마련해야 한다. 앞으로 좋은 법학교육은 'AI 없는 교육'이 아니라 'AI를 부려 쓰되, 법률가의 최종 판단력과 책임윤리를 더 강하게 훈련하는 교육'이 될 것"이라고 말했다.