업스테이지-NIA, 한국어 리더보드 시즌2 개시

김현아 2024. 8. 12. 09:35
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국내 최대 개방형 한국어 거대언어모델(LLM) 평가 체계인 'Open Ko-LLM 리더보드'가 8월 12일부터 시즌 2로 전면 개편된다.

업스테이지의 김성훈 대표는 "이번 리더보드 개편으로 한국어 LLM 성능 평가의 기준점이 한 단계 더 높아질 것으로 기대한다"며, "업스테이지는 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 앞장설 것"이라고 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

새로운 벤치마크로 한국어 LLM 평가 강화

[이데일리 김현아 기자] 국내 최대 개방형 한국어 거대언어모델(LLM) 평가 체계인 ‘Open Ko-LLM 리더보드’가 8월 12일부터 시즌 2로 전면 개편된다.

이번 개편은 업스테이지(대표 김성훈)와 한국지능정보사회진흥원(NIA, 원장 황종성)이 공동으로 운영하며, 새로운 벤치마크를 대거 추가해 평가 지표를 대폭 확장했다.

‘Open Ko-LLM 리더보드’는 2023년 9월 민관 협력을 통해 처음 개설된 이래, 산·학·연 각계에서 1700개 이상의 LLM 모델이 제출될 정도로 많은 관심과 참여를 받아왔다.

그러나 최근 LLM 기술이 급속히 발전함에 따라, 기존 벤치마크의 개선 필요성이 제기되었고, 이에 따라 업스테이지와 NIA는 새로운 평가 기준을 적용한 시즌 2 운영을 시작했다.

시즌 2에서 새롭게 도입된 벤치마크는 총 9개로, ▲Ko-GPQA(대학원 수준 추론) ▲Ko-WinoGrande(상식 추론) ▲Ko-GSM8K(초등 수학) ▲Ko-EQ-Bench(감성) ▲Ko-IFEval(지시 이행) ▲KorNAT-Knowledge(한국어 신뢰성) ▲KorNAT-Social-Value(사회적 가치) ▲Ko-Harmlessness(무해성) ▲Ko-Helpfulness(실용성) 등이 포함된다.

기존에는 언어 능력에 중점을 두었던 평가에서, 이번 개편을 통해 더욱 고도화된 지능, 문제해결 능력, 실용성 등의 평가가 이루어질 예정이다.

새로운 벤치마크는 기존에 제출된 모델뿐만 아니라 향후 제출될 모든 LLM에 적용된다. 또한, AI 데이터 전문 기업 플리토, 셀렉트스타, KAIST AI 대학원이 새롭게 참여해 전문화된 벤치마크 데이터셋을 제공함으로써 평가의 정확성과 전문성을 높일 예정이다.

업스테이지의 김성훈 대표는 “이번 리더보드 개편으로 한국어 LLM 성능 평가의 기준점이 한 단계 더 높아질 것으로 기대한다”며, “업스테이지는 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 앞장설 것”이라고 밝혔다.

NIA 황종성 원장은 “리더보드는 민관 협업을 통해 한국어 LLM 생태계 조성에 크게 기여해 왔으며, 시즌 2 개편을 통해 한국어 LLM 기술이 세계적 수준으로 도약할 수 있는 계기가 되기를 기대한다”고 강조했다.

이번 개편으로 한국어 LLM 평가의 새로운 기준이 마련되면서, 국내 AI 기술의 글로벌 경쟁력이 한층 강화될 것으로 기대된다.

김현아 (chaos@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?