'AI' vs '로스쿨 교수', 법률 추론 대결...승자는

승률 75%로 AI가 인간 압도...'교육적 유해성' 비율도 AI가 인간보다 낮아

(지디넷코리아=백봉삼 기자)인공지능(AI)이 학생들 질문에 인간 법학 교수보다 더 우수하게 답변할 수 있다는 연구 결과가 나왔다. 심지어 답변이 오해를 불러일으키거나 교육적으로 유해하다고 판단되는 비율 역시 AI가 인간 교수보다 훨씬 낮았다. 이 연구 보고서는 지난달 27일 스탠퍼드 로스쿨 홈페이지에 게재됐으며, 이달 1일 같은 웹사이트 내 뉴스&미디어를 통해 보도됐다.

스탠퍼드 대학교 로스쿨의 법학 교수이자 '법무혁신 프론티어 테크놀로지 랩(LIFT Lab)'을 이끄는 줄리언 냐르코(Julian Nyarko) 교수는 예일대·뉴욕대 등 미국 명문대 동료 연구진과 함께 AI가 학생들의 법률 질문에 얼마나 정교하게 답할 수 있는지를 검증하는 연구를 진행했다.

냐르코 교수 연구팀이 진행한 이번 실험에는 미국 로스쿨에 재직 중인 법학 교수 16명이 참여했다. 교수들은 실제 계약법 강의 중이나 강의 후에 학생들이 던질 수 있는 대표적인 질문 40개를 작성한 뒤, 각 질문에 대한 모범 답안을 직접 기술했다. 연구팀은 AI에게도 동일한 질문을 주고 답변을 생성하게 한 뒤, 평가자가 어떤 답변이 인간 교수의 것이고 어떤 것이 AI의 것인지 알 수 없도록 '블라인드 테스트' 방식으로 평가를 진행했다.

법학 교수 16명을 대상으로 블라인드 테스트 결과 인공지능(AI)이 학생들 질문에 인간 법학 교수보다 더 우수하게 답변할 수 있다는 연구 결과가 나왔다. (제공=클립아트코리아)

특히 연구팀은 실험의 형평성과 타당성을 확보하기 위해 AI가 생성한 답변의 길이나 구조를 인간 교수가 작성한 답변 스타일에 맞춰 엄격하게 조정했다. 냐르코 교수는 "이번 연구가 가지는 학술적 중요성이 매우 크기 때문에, 실험 설계를 최대한 엄격하고 객관적으로 진행했다"고 강조했다.

기존의 AI 성능 조사는 주로 정답과 오답이 명확히 갈리는 단답형 문제에 초점이 맞춰져 있었다. 하지만 법적 추론의 영역은 대립하는 논거들을 신중하게 분석하고 모호함을 조율하며 타당한 결론을 도출해야 하는 복잡한 과정이다. 냐르코 교수는 "법학에 초점을 맞춘 이유는 단순히 사실을 기억하는 능력을 넘어, 판단력과 섬세한 추론 능력, 그리고 모호함을 극복하는 능력이 복잡하게 요구되는 분야이기 때문"이라고 설명했다.

참여 교수들이 총 2918건의 답변을 교차 평가한 결과, 놀랍게도 교수들은 동료 인간 법학 교수가 작성한 답변보다 AI가 생성한 답변에 현저히 높은 점수를 줬다. AI가 생성한 답변은 인간 교수와의 1대1 비교 평가에서 약 75%의 승률을 기록했다.

가장 주목할 만한 부분은 '교육적으로 해롭거나 잘못된 정보를 담고 있다'고 지적된 답변 비율이었다. 인간 교수가 작성한 답변 중 유해성이나 오류가 지적된 비율은 약 12%에 달했으나, AI가 생성한 답변에서는 그 비율이 불과 3.5%에 그쳐 안정성 면에서도 판정승을 거뒀다.

스탠퍼드 대학교 로스쿨의 법학 줄리언 냐르코(Julian Nyarko) 교수(출처=스탠퍼드 로스쿨 사이트 캡처)

냐르코 교수는 "실험에 사용된 질문들은 결코 단순한 문답 수준이 아니었다"며 "대부분 복잡한 법리 개념을 통합하고 이를 새로운 가상 상황에 적용해, 학생들이 분석적 기술을 키울 수 있도록 돕는 고난도 질문이었다"고 설명했다. 이어 "이번 연구는 법학 교육에서 AI의 역할에 대해 우리가 가졌던 기존의 부정적 전제들에 강한 의문을 제기한다"고 덧붙였다.

이번 연구 결과는 향후 법학 교육 현장에서 'AI 튜터'의 활용 가능성을 시사한다는 점에서 학계의 큰 관심을 모으고 있다. 현재 미국 로스쿨 환경에서는 AI 도입을 두고 고심하고 있는데, 일각에서는 AI의 환각 현상이나 학생들의 과도한 의존, 비판적 사고력 저하 등을 우려해 도입에 신중한 태도를 보여왔다.

LIFT Lab의 연구원인 알레한드로 살리나스(Alejandro Salinas)는 "우리의 연구는 AI를 통한 개별 지도가 법률처럼 고도의 판단을 요하는 전문 분야 학습에 어떻게 기여할 수 있는지를 보여준다"면서 "법학 교육자들의 평가를 통해, AI 튜터가 교실 수업을 보완하는 질 높은 상시 지원(On-demand) 서비스를 제공할 수 있으며, 전문가 지도에 대한 학생들의 접근성을 획기적으로 확대할 잠재력이 있음이 증명됐다"고 평가했다.

이어 그는 "법조인 교육의 본질은 미래의 변호사들이 비판적으로 사고하고, 설득력 있는 논증을 펴며, 윤리적으로 복잡한 문제에 대처할 수 있도록 훈련하는 것"이라며 "AI 튜터의 전면 도입을 성급하게 권장하는 것은 아니지만, 데이터가 보여주듯 AI에 대해 무조건적인 회의론을 고집하는 것 또한 부당하다"고 지적했다.

나아가 살리나스 연구원은 "이제 논의의 초점은 'AI가 과연 정확하고 질 높은 답변을 줄 수 있는가'라는 의구심에서 벗어나, '학생들의 학습 이익을 위해 AI를 어떻게 책임감 있게 교육 과정에 활용할 것인가'로 전환돼야 한다"고 제언했다.

백봉삼 기자(paikshow@zdnet.co.kr)

IT/과학

'AI' vs '로스쿨 교수', 법률 추론 대결...승자는