한국어 LLM 리더보드, 추론 등 2개 지표 추가…오버피팅 개선

한국어 거대언어모델(LLM) 리더보드가 평가지표 개선 등 대대적 개선을 단행한다.

항목에 맞춰 인공지능(AI) 모델 순위만 올리는 이른바 '오버피팅' 문제가 개선될 지 주목된다.

한국지능정보사회진흥원(NIA)과 업스테이지가 공동 운영하는 'Open Ko-LLM 리더보드'가 평가 지표를 추가하고 이달 1차 업그레이드를 진행한다.

Open Ko-LLM 리더보드는 지난해 9월, 민관 협업을 통해 개설됐다. 학계와 업계 참여로 지난 5월 말까지 참여한 LLM 모델 수가 1500개를 넘어섰고, 최고 점수는 70.7점을 기록했다.

NIA와 업스테이지는 Open Ko-LLM 리더보드의 지속 발전과 개선을 위해 우선 기존 5개 지표에 추론 관련 지표를 추가 운영할 계획이다.

추가되는 지표는 허깅페이스의 오픈 LLM 리더보드에서 사용되는 평가지표 중 '추론 능력(Winogrande, 글 속 대명사 추론 능력)' 및 '산출추론능력(GSM8K, 산술 연산 분야 추론능력)' 두 개 지표를 한국어에 맞게 적용한 것이다.

추가 지표는 AI 언어 데이터 전문 기업인 플리토가 참여해 한국어 맞춤 번역과 개발을 지원했다.

업계는 한국어 모델의 성능 평가 체계를 국제 평가 기준과 대등한 수준으로 끌어올리는 계기가 될 것으로 기대했다.

그동안 한국어 LLM 리더보드는 국내 오픈소스 AI 모델의 발전에 기여한다는 평가와 함께 평가 항목에만 맞춰 알고리즘을 개발, 실제 AI 모델 성능은 이에 못 미친다는 지적이 제기됐다. 오버피팅 논란이다.

NIA와 업스테이지 측도 이러한 현황을 파악하고, 새로운 평가 지표 추가와 지속적 관리를 통해 문제를 개선하겠다는 계획이다. 하반기에도 2차례 새 지표 추가를 비롯한 업그레이드 작업을 진행한다.

이번 추가 지표를 통해 바뀐 LLM 점수는 7월 경 확인할 수 있을 전망이다.

황종성 NIA 원장은 “한국어 LLM 발전을 위해 리더보드 평가 지표 및 체계를 지속 개선할 방침”이라며 “이를 통해 국내외 AI 연구자들 사이에서 더욱 활발한 교류와 협력이 이루어질 것으로 기대하고 있다”고 밝혔다.

김명희 기자 noprint@etnews.com

전자신문