SKT, 국내 LLM 성능 벤치마크 플랫폼 평가서 3관왕

수학·코딩·토큰 효율성서 우수성 입증

지난달 30일 서울 강남구 코엑스에서 열린 ‘독자 AI 파운데이션 모델 프로젝트 1차 발표회’에서 방문자가 SK텔레콤 A.X K1 모델을 사용하고 있다. 연합뉴스

SK텔레콤이 국내 대형언어모델(LLM) 성능 벤치마크 플랫폼 ‘호랑이 리더보드’의 최신 분석에서 우수한 성능을 인정받았다.

웨이트앤바이어스(W&B)는 지난 27일 ‘독자 인공지능(AI) 파운데이션 모델 프로젝트’ 1차 평가 대상 5개 모델의 성능을 상세 분석해 공개했다. W&B는 세계 각국의 고객사에 머신러닝 개발 플랫폼을 제공하는 회사로, 한국 시장에서 LLM의 언어 이해와 생성 능력을 평가하기 위한 벤치마크 ‘호랑이 LLM 리더보드’를 운영하고 있다.

SK텔레콤의 초거대 AI 모델 ‘A.X K1’은 종합 성능 지표에서 0.649점을 받아 LG AI연구원의 K-엑사원(0.676)에 이어 2위를 차지했다. 네이버클라우드의 하이퍼클로바X 33B(0.633), 업스테이지의 솔라 오픈 100B(0.621), NC AI의 배키(0.599) 순이었다.

일반적 지식, 수학적 추론, 코딩 능력 등 3개 영역에서는 5팀 중 1위를 기록했다. 수학적 추론(0.96)과 코딩 능력(0.48)에서 각각 1위를 차지하며 기술 우수성을 증명했다. 특히 한국어 수학 벤치마크를 평가하는 ko_aime2025에서는 만점(1.0)을 받았다.

호랑이 리더보드 측은 “거대 모델 특유의 깊이 있는 사고 능력을 입증했다”며 “매개변수 5190억개의 거대 규모임에도 불구하고 최적화된 추론 설계로 토큰 효율성 1위를 기록했다”고 평가했다.

이혜선 기자 hslee@dt.co.kr

디지털타임스

IT/과학

SKT, 국내 LLM 성능 벤치마크 플랫폼 평가서 3관왕