업스테이지-NIA, 한국어 리더보드 시즌2 개시
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국내 최대 개방형 한국어 거대언어모델(LLM) 평가 체계인 'Open Ko-LLM 리더보드'가 8월 12일부터 시즌 2로 전면 개편된다.
업스테이지의 김성훈 대표는 "이번 리더보드 개편으로 한국어 LLM 성능 평가의 기준점이 한 단계 더 높아질 것으로 기대한다"며, "업스테이지는 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 앞장설 것"이라고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[이데일리 김현아 기자] 국내 최대 개방형 한국어 거대언어모델(LLM) 평가 체계인 ‘Open Ko-LLM 리더보드’가 8월 12일부터 시즌 2로 전면 개편된다.
이번 개편은 업스테이지(대표 김성훈)와 한국지능정보사회진흥원(NIA, 원장 황종성)이 공동으로 운영하며, 새로운 벤치마크를 대거 추가해 평가 지표를 대폭 확장했다.
그러나 최근 LLM 기술이 급속히 발전함에 따라, 기존 벤치마크의 개선 필요성이 제기되었고, 이에 따라 업스테이지와 NIA는 새로운 평가 기준을 적용한 시즌 2 운영을 시작했다.
시즌 2에서 새롭게 도입된 벤치마크는 총 9개로, ▲Ko-GPQA(대학원 수준 추론) ▲Ko-WinoGrande(상식 추론) ▲Ko-GSM8K(초등 수학) ▲Ko-EQ-Bench(감성) ▲Ko-IFEval(지시 이행) ▲KorNAT-Knowledge(한국어 신뢰성) ▲KorNAT-Social-Value(사회적 가치) ▲Ko-Harmlessness(무해성) ▲Ko-Helpfulness(실용성) 등이 포함된다.
기존에는 언어 능력에 중점을 두었던 평가에서, 이번 개편을 통해 더욱 고도화된 지능, 문제해결 능력, 실용성 등의 평가가 이루어질 예정이다.
새로운 벤치마크는 기존에 제출된 모델뿐만 아니라 향후 제출될 모든 LLM에 적용된다. 또한, AI 데이터 전문 기업 플리토, 셀렉트스타, KAIST AI 대학원이 새롭게 참여해 전문화된 벤치마크 데이터셋을 제공함으로써 평가의 정확성과 전문성을 높일 예정이다.
업스테이지의 김성훈 대표는 “이번 리더보드 개편으로 한국어 LLM 성능 평가의 기준점이 한 단계 더 높아질 것으로 기대한다”며, “업스테이지는 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 앞장설 것”이라고 밝혔다.
NIA 황종성 원장은 “리더보드는 민관 협업을 통해 한국어 LLM 생태계 조성에 크게 기여해 왔으며, 시즌 2 개편을 통해 한국어 LLM 기술이 세계적 수준으로 도약할 수 있는 계기가 되기를 기대한다”고 강조했다.
이번 개편으로 한국어 LLM 평가의 새로운 기준이 마련되면서, 국내 AI 기술의 글로벌 경쟁력이 한층 강화될 것으로 기대된다.
김현아 (chaos@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- "곱창 한 캔, 갈비 한 캔 어때?"…영업팀장의 번뜩임 대박났다
- 1등해도 연봉 5000만원?…안세영 “개인스폰서 풀어달라”
- 金 따고 역사 쓴 현대家 며느리 리디아 고, 다음은 '골든 그랜드슬램'
- 피해자 뒤따라가 원룸 침입시도…‘신림동 강간미수’ 피고인, 법정 서다 [그해 오늘]
- ‘명동 황제’ 1세대 조폭 신상현씨 별세…목사·스님도 조문
- ‘택배 4000건 뚝딱’ 선반 위 분주한 이케아 로봇 정체[르포]
- 성화 꺼진 파리올림픽..톰 크루즈 깜짝 등장 "LA에서 만나요"
- 이제는 2028년 LA로…‘차 없는 올림픽’ 온다[파리올림픽 결산]
- 10살 연하남 사로잡은 한지민…집도 매력만점 [누구집]
- '미우새' 김일우, 61세 미혼 라이프…"돌싱 이상민 부러워"