한국어 LLM 리더보드 시즌2 가동…“벤치마크 난도 높여 오버피팅 논란 뚫는다”

박찬준 업스테이지 테크니컬 리더가 허깅페이스 게시판을 통해 오는 12일 Open Ko-LLM 리더보드 시즌 2를 출시하겠다고 공지했다. Open Ko-LLM 리더보드 시즌 1은 지난 2일 종료됐으며, 리더보드에 제출된 모든 모델은 새로운 벤치마크를 통해 재평가될 예정이다. [사진=허깅페이스 게시글 일부 캡처]

한국어 거대언어모델(LLM) 리더보드(Open Ko-LLM 리더보드) 시즌2가 오는 12일 가동된다. 대대적 개편을 통해 더욱 어려워진 벤치마크(성능테스트)로 오버피팅 논란을 뚫겠다는 방침이다.

7일 한국지능정보사회진흥원(NIA)에 따르면, NIA와 업스테이지는 LLM 성능과 신뢰성 평가에 초점을 맞춰 새로운 벤치마크 지표 9가지로 구성된 'Open Ko-LLM 리더보드 시즌2'를 공개할 예정이다.

LLM 리더보드는 LLM 성능을 평가하고 순위를 매기는 플랫폼이다. Open Ko-LLM 리더보드는 지난해 9월 출시돼 1700개가 넘는 LLM의 성능을 평가해왔다.

그러나 LLM 리더보드는 고득점을 위해 벤치마크 데이터셋(일종의 시험 문제)에만 초점을 맞추는 편법인 '오버피팅'과 함께, 일부 기업이 리더보드 내 고순위를 차지한 LLM의 성능을 과장해 홍보나 투자 유치 수단으로 이용한다는 논란이 불거졌다.

벤치마크 지표를 재편해 이러한 논란을 잠재우겠다는 게 NIA와 업스테이지의 계획이다.

새 리더보드에 포함될 벤치마크 지표는 △Ko-GPQA(대학원 수준의 Q&A 지표) △Ko-WinoGrande(상식 추론 지표) △Ko-EQ-Bench(감성 지표) △KorNAT-Social-Value(한국 사회적 가치 지표) △Ko-Harmlessness(무해성 지표) 등 9개다.

Open Ko-LLM 리더보드 기획·운영을 담당하는 박찬준 업스테이지 테크니컬 리더는 “더욱 어려워진 벤치마크로 LLM을 재평가하면 성능이 뛰어난 LLM이 가려질 것”이라며 “특히 Ko-EQ-Bench는 멀티턴(연이은 질문과 답변) 성능과 상관관계가 높아 기업이 LLM 개념검증(PoC) 진행 시 요구하는 멀티턴 성능도 일부 평가할 수 있다”고 설명했다.

이는 글로벌 추세를 따른 것이기도 하다. 머신러닝 플랫폼 허깅페이스는 지난 6월 난도를 높인 벤치마크 지표로 구성된 오픈 LLM 리더보드를 출시, 리더보드 내 고순위를 차지하던 LLM이 상위권에서 사라지는 등 순위에 큰 변동이 있었다.

NIA와 업스테이지는 금융·의료 지식과 같은 도메인 특화 벤치마크 지표를 추가하는 등 Open Ko-LLM 리더보드를 지속 발전시킬 계획이다.

현대인 기자 modernman@etnews.com

전자신문

IT/과학

한국어 LLM 리더보드 시즌2 가동…“벤치마크 난도 높여 오버피팅 논란 뚫는다”