한국어 LLM 리더보드 시즌2 가동…“벤치마크 난도 높여 오버피팅 논란 뚫는다”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
한국어 거대언어모델(LLM) 리더보드(Open Ko-LLM 리더보드) 시즌2가 오는 12일 가동된다.
7일 한국지능정보사회진흥원(NIA)에 따르면, NIA와 업스테이지는 LLM 성능과 신뢰성 평가에 초점을 맞춰 새로운 벤치마크 지표 9가지로 구성된 'Open Ko-LLM 리더보드 시즌2'를 공개할 예정이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
한국어 거대언어모델(LLM) 리더보드(Open Ko-LLM 리더보드) 시즌2가 오는 12일 가동된다. 대대적 개편을 통해 더욱 어려워진 벤치마크(성능테스트)로 오버피팅 논란을 뚫겠다는 방침이다.
7일 한국지능정보사회진흥원(NIA)에 따르면, NIA와 업스테이지는 LLM 성능과 신뢰성 평가에 초점을 맞춰 새로운 벤치마크 지표 9가지로 구성된 'Open Ko-LLM 리더보드 시즌2'를 공개할 예정이다.
LLM 리더보드는 LLM 성능을 평가하고 순위를 매기는 플랫폼이다. Open Ko-LLM 리더보드는 지난해 9월 출시돼 1700개가 넘는 LLM의 성능을 평가해왔다.
그러나 LLM 리더보드는 고득점을 위해 벤치마크 데이터셋(일종의 시험 문제)에만 초점을 맞추는 편법인 '오버피팅'과 함께, 일부 기업이 리더보드 내 고순위를 차지한 LLM의 성능을 과장해 홍보나 투자 유치 수단으로 이용한다는 논란이 불거졌다.
벤치마크 지표를 재편해 이러한 논란을 잠재우겠다는 게 NIA와 업스테이지의 계획이다.
새 리더보드에 포함될 벤치마크 지표는 △Ko-GPQA(대학원 수준의 Q&A 지표) △Ko-WinoGrande(상식 추론 지표) △Ko-EQ-Bench(감성 지표) △KorNAT-Social-Value(한국 사회적 가치 지표) △Ko-Harmlessness(무해성 지표) 등 9개다.
Open Ko-LLM 리더보드 기획·운영을 담당하는 박찬준 업스테이지 테크니컬 리더는 “더욱 어려워진 벤치마크로 LLM을 재평가하면 성능이 뛰어난 LLM이 가려질 것”이라며 “특히 Ko-EQ-Bench는 멀티턴(연이은 질문과 답변) 성능과 상관관계가 높아 기업이 LLM 개념검증(PoC) 진행 시 요구하는 멀티턴 성능도 일부 평가할 수 있다”고 설명했다.
이는 글로벌 추세를 따른 것이기도 하다. 머신러닝 플랫폼 허깅페이스는 지난 6월 난도를 높인 벤치마크 지표로 구성된 오픈 LLM 리더보드를 출시, 리더보드 내 고순위를 차지하던 LLM이 상위권에서 사라지는 등 순위에 큰 변동이 있었다.
NIA와 업스테이지는 금융·의료 지식과 같은 도메인 특화 벤치마크 지표를 추가하는 등 Open Ko-LLM 리더보드를 지속 발전시킬 계획이다.
현대인 기자 modernman@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- [단독]환경부, 전자제품 EPR 全 품목 적용
- “게임-질병 연관성無”... 문체부, WHO에 의견 낸다
- 카카오뱅크, 역대 최고 반기 이익 '기염'…내실·포용 같이 품었다
- [르포] “객관적 데이터·집중도 높이는 수업 재구성”…AI교과서로 달라질 교실은
- '전범국' 독일 콘서트서 '욱일기' 꺼낸 팝스타…韓팬들 “실망”
- “반도체 키운다” 주성엔지니어링, ASML 출신 이우경 대표 영입
- 대한항공, 2분기 매출 4조237억원 '역대 분기 최대'
- [K게임 명예혁명] 〈1〉용호성 문체부 제1차관 “종합 문화예술 게임, 비교우위 전략 키운다”
- '반지의 전쟁' 헬스케어 시장 달군다
- 현대차, 386억원 투자 태국에 전기차 공장 건립