국내 최대 한국어 LLM 리더보드, 시즌2 개시…"지표 전면개편"

한국지능정보사회진흥원(NIA)과 업스테이지가 한국어 거대언어모델(LLM) 평가체계 '오픈 Ko-LLM 리더보드'를 시즌2로 개편했다고 12일 밝혔다.

시즌2에선 기존 평가지표(벤치마크)를 전면 폐지하고 AI(인공지능) 데이터 기업 플리토·셀렉트스타, KAIST AI대학원이 참여한 9개(추론·산술추론·정보추출·지시이행·감성·정보정확성·소셜얼라인먼트·무해성·도움적정성) 지표가 새로 적용됐다. 시즌1에 제출됐거나 앞으로 제출될 모든 LLM은 새 지표로 평가받는다.

NIA는 "LLM 기술이 빠르게 발전하면서 1년 전 만들어진 지표의 개선 필요성이 대두됐다"며 "'글로벌 오픈 LLM 리더보드'를 운영 중인 허깅페이스가 지난 6월 지표를 개편한 리더보드 시즌2를 공개한 데 따라 '오픈 Ko-LLM 리더보드'도 시즌2 운영을 시작했다"고 밝혔다.

오픈 Ko-LLM 리더보드는 지난해 9월 민관협력으로 개설된 국내 최대 개방형 한국어 LLM 평가체계다. 지난해 7월까지 산학연 각계에서 LLM을 1700개 이상 제출해 경쟁했다.

오픈 Ko-LLM 리더보드 시즌2는 AI허브 웹사이트의 참여하기-리더보드 메뉴에서 확인할 수 있다.

성시호 기자 shsung@mt.co.kr

머니투데이

IT/과학

국내 최대 한국어 LLM 리더보드, 시즌2 개시…"지표 전면개편"