SKT, 국내 LLM 성능 벤치마크 플랫폼 평가서 3관왕
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
SK텔레콤이 국내 대형언어모델(LLM) 성능 벤치마크 플랫폼 '호랑이 리더보드'의 최신 분석에서 우수한 성능을 인정받았다.
웨이트앤바이어스(W&B)는 지난 27일 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 평가 대상 5개 모델의 성능을 상세 분석해 공개했다.
W&B는 세계 각국의 고객사에 머신러닝 개발 플랫폼을 제공하는 회사로, 한국 시장에서 LLM의 언어 이해와 생성 능력을 평가하기 위한 벤치마크 '호랑이 LLM 리더보드'를 운영하고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

SK텔레콤이 국내 대형언어모델(LLM) 성능 벤치마크 플랫폼 ‘호랑이 리더보드’의 최신 분석에서 우수한 성능을 인정받았다.
웨이트앤바이어스(W&B)는 지난 27일 ‘독자 인공지능(AI) 파운데이션 모델 프로젝트’ 1차 평가 대상 5개 모델의 성능을 상세 분석해 공개했다. W&B는 세계 각국의 고객사에 머신러닝 개발 플랫폼을 제공하는 회사로, 한국 시장에서 LLM의 언어 이해와 생성 능력을 평가하기 위한 벤치마크 ‘호랑이 LLM 리더보드’를 운영하고 있다.
SK텔레콤의 초거대 AI 모델 ‘A.X K1’은 종합 성능 지표에서 0.649점을 받아 LG AI연구원의 K-엑사원(0.676)에 이어 2위를 차지했다. 네이버클라우드의 하이퍼클로바X 33B(0.633), 업스테이지의 솔라 오픈 100B(0.621), NC AI의 배키(0.599) 순이었다.
일반적 지식, 수학적 추론, 코딩 능력 등 3개 영역에서는 5팀 중 1위를 기록했다. 수학적 추론(0.96)과 코딩 능력(0.48)에서 각각 1위를 차지하며 기술 우수성을 증명했다. 특히 한국어 수학 벤치마크를 평가하는 ko_aime2025에서는 만점(1.0)을 받았다.
호랑이 리더보드 측은 “거대 모델 특유의 깊이 있는 사고 능력을 입증했다”며 “매개변수 5190억개의 거대 규모임에도 불구하고 최적화된 추론 설계로 토큰 효율성 1위를 기록했다”고 평가했다.
이혜선 기자 hslee@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- “‘뉴진스 탬퍼링’은 대국민 사기극” 민희진 측 의혹 전면 부인
- ‘김어준 처남’ 인태연 전 비서관, 소진공 이사장에 선임…연봉 1억8000만원
- 미국엔 최악의 한파·눈폭풍…호주는 50도 육박 ‘극한 폭염’
- “사라진 400억짜리 압수물”…광주지검 수사관 5명 감찰 조사
- 술 마시다 정신 잃었는데…깨보니 “2200만원 내라”
- “돈 줄테니…” 성관계 암시 쪽지 직원에 보낸 병원장, ‘성희롱’ 혐의 과태료
- “화가 나”…동거남 살해하고 두물머리에 유기한 30대 남성
- 욕먹던 ‘황금박쥐상’ 몸값 386억…금값 한 돈 103만원 돌파에 ‘재조명’
- 군부대 사격훈련 중 산불…헬기 7대 투입 진화 나서
- 이별 통보에…다리 위서 연인 흉기로 찌르고 바다에 빠뜨리려한 20대