허깅페이스 공인 리더보드, 상위 21개 모델에 中 16개·韓 비드래프트 5개

전 세계 인공지능(AI) 모델의 추론 능력을 평가하는 벤치마크 ‘GPQA 다이아몬드(GPQA Diamond)’에서 허깅페이스가 공인하는 공식 리더보드 상위권이 중국과 한국의 모델로 분석됐다.

27일 기준, 상위 21위를 분석한 결과 중국이 16개, 한국이 5개를 차지했다. 한국 5개는 모두 서울 AI 허브 기업 비드래프트(VIDRAFT)의 진화형 LLM ‘다윈(Darwin)’ 시리즈다.

중국 측은 문샷의 Kimi-K2.6(90.5점, 1위)과 딥시크 V4-Pro(90.1점, 2위)가 1, 2위를 차지했고, 알리바바 6개, 지푸 4개, 텐센트 1개 등 총 16개를 채웠다.

Darwin-28B-Opus는 88.89점으로 글로벌 3위에 올라, 알리바바의 총 397B 거대 모델(88.4점)을 28B 사이즈로 추월했다. 21위에는 9B 사이즈의 Darwin-9B-NEG가 84.34점으로 진입해, GPU 한 장으로도 운영 가능한 초소형 모델이 글로벌 톱 클래스 추론 성능을 보였다.

비드래프트의 다윈은 14차원의 ‘유전자(Genome)’ 좌표계 위에서, CMA-ES(Covariance Matrix Adaptation Evolution Strategy) 진화 알고리즘을 통해 다중 부모 모델의 가중치를 최적 혼합한다. 어텐션, FFN, 임베딩 등 각 구성 요소별로 최적의 혼합 비율을 자동 탐색하며, 이 과정에서 NIPA 과제의 핵심 이론인 A2AP(Architectural Alignment and Adaptive Pressure)가 모델 병합 시의 구조적 차이를 정렬하고 학습 정체 고원을 돌파하는 역할을 한다.

비드래프트는 이 방식으로 만들어진 모델을 기존 ‘파운데이션 모델’과 구분해 ‘Hybrid-Evolved Model’(하이브리드 진화 모델)이라는 새로운 범주로 정의한다. 사전학습된 파운데이션 모델이 ‘원석’이라면, 다윈은 그 원석들을 진화로 결합한 ‘보석’이라는 것이 비드래프트의 설명이다.

비드래프트 김민식 대표는 “한국 스타트업이 1조 파라미터 모델을 만들 자본을 갖추기는 현실적으로 어렵다”며, “다윈은 그 한계를 진화 알고리즘으로 우회한 시도이며, GPQA Top 21에 한국 모델 5개가 모두 다윈으로 들어갔다는 결과는 그 우회가 실제로 작동했음을 입증한다”고 말했다.

박양수 기자 yspark@dt.co.kr

디지털타임스

IT/과학

허깅페이스 공인 리더보드, 상위 21개 모델에 中 16개·韓 비드래프트 5개