SKT, 국내 LLM 성능 벤치마크 플랫폼 평가서 3관왕

이혜선 2026. 1. 28. 17:04
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

SK텔레콤이 국내 대형언어모델(LLM) 성능 벤치마크 플랫폼 '호랑이 리더보드'의 최신 분석에서 우수한 성능을 인정받았다.

웨이트앤바이어스(W&B)는 지난 27일 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 평가 대상 5개 모델의 성능을 상세 분석해 공개했다.

W&B는 세계 각국의 고객사에 머신러닝 개발 플랫폼을 제공하는 회사로, 한국 시장에서 LLM의 언어 이해와 생성 능력을 평가하기 위한 벤치마크 '호랑이 LLM 리더보드'를 운영하고 있다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

수학·코딩·토큰 효율성서 우수성 입증
지난달 30일 서울 강남구 코엑스에서 열린 ‘독자 AI 파운데이션 모델 프로젝트 1차 발표회’에서 방문자가 SK텔레콤 A.X K1 모델을 사용하고 있다. 연합뉴스


SK텔레콤이 국내 대형언어모델(LLM) 성능 벤치마크 플랫폼 ‘호랑이 리더보드’의 최신 분석에서 우수한 성능을 인정받았다.

웨이트앤바이어스(W&B)는 지난 27일 ‘독자 인공지능(AI) 파운데이션 모델 프로젝트’ 1차 평가 대상 5개 모델의 성능을 상세 분석해 공개했다. W&B는 세계 각국의 고객사에 머신러닝 개발 플랫폼을 제공하는 회사로, 한국 시장에서 LLM의 언어 이해와 생성 능력을 평가하기 위한 벤치마크 ‘호랑이 LLM 리더보드’를 운영하고 있다.

SK텔레콤의 초거대 AI 모델 ‘A.X K1’은 종합 성능 지표에서 0.649점을 받아 LG AI연구원의 K-엑사원(0.676)에 이어 2위를 차지했다. 네이버클라우드의 하이퍼클로바X 33B(0.633), 업스테이지의 솔라 오픈 100B(0.621), NC AI의 배키(0.599) 순이었다.

일반적 지식, 수학적 추론, 코딩 능력 등 3개 영역에서는 5팀 중 1위를 기록했다. 수학적 추론(0.96)과 코딩 능력(0.48)에서 각각 1위를 차지하며 기술 우수성을 증명했다. 특히 한국어 수학 벤치마크를 평가하는 ko_aime2025에서는 만점(1.0)을 받았다.

호랑이 리더보드 측은 “거대 모델 특유의 깊이 있는 사고 능력을 입증했다”며 “매개변수 5190억개의 거대 규모임에도 불구하고 최적화된 추론 설계로 토큰 효율성 1위를 기록했다”고 평가했다.

이혜선 기자 hslee@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.